Anthrope explora cómo Claude ‘piensa’


Puede ser difícil determinar cómo llega la IA generativa a su salida.

El 27 de marzo, Anthrope publicó una publicación de blog que presenta una herramienta para mirar dentro de un modelo de lenguaje grande para seguir su comportamiento, buscando responder preguntas como en qué lenguaje su modelo Claude “piensa”, ya sea que el modelo planea con anticipación o predice una palabra a la vez, y si las propias explicaciones de la IA sobre su razonamiento realmente reflejan lo que está sucediendo bajo el capó.

En muchos casos, la explicación no coincide con el procesamiento real. Claude genera sus propias explicaciones para su razonamiento, por lo que esas explicaciones también pueden presentar alucinaciones.

Un ‘microscopio’ para ‘AI Biology’

Anthrope publicó un artículo sobre las estructuras internas de “mapeo” de Claude en mayo de 2024, y su nuevo artículo sobre la descripción de las “características” que un modelo utiliza para vincular conceptos juntos sigue ese trabajo. Anthrope llama a su investigación parte del desarrollo de un “microscopio” en “Biología de IA”.

En el primer artículo, los investigadores antrópicos identificaron “características” conectadas por “circuitos”, que son rutas desde la entrada de Claude hasta la salida. El Segundo artículo centrado en Claude 3.5 Haikuexaminando 10 comportamientos para diagrama de cómo llega la IA a su resultado. Antropic encontrado:

  • Claude definitivamente planea con anticipación, particularmente en tareas como escribir poesía de rima.
  • Dentro del modelo, hay “un espacio conceptual que se comparte entre los idiomas”.
  • Claude puede “inventar un razonamiento falso” al presentar su proceso de pensamiento al usuario.

Los investigadores descubrieron cómo Claude traduce conceptos entre idiomas al examinar la superposición en cómo la IA procesa las preguntas en múltiples idiomas. Por ejemplo, el mensaje “lo contrario de Small Is” en diferentes idiomas se enruta a través de las mismas características para “los conceptos de pequeñez y oposición”.

Este último punto encaja con los estudios de Apollo Research en La capacidad de Claude Sonnet 3.7 para detectar una prueba de ética. Cuando se le pide que explique su razonamiento, Claude “dará un argumento de sonido plausible diseñado para estar de acuerdo con el usuario en lugar de seguir pasos lógicos”, encontró Anthrope.

Ver: La oferta de seguridad cibernética de AI de Microsoft debutará dos personas, Investigador y analistaen el acceso temprano en abril.

La IA generativa no es mágica; Es una computación sofisticada y sigue reglas; Sin embargo, su naturaleza de caja negra significa que puede ser difícil determinar cuáles son esas reglas y bajo qué condiciones surgen. Por ejemplo, Claude mostró una duda general para proporcionar respuestas especulativas, pero podría procesar su objetivo final más rápido de lo que proporciona la producción: “En una respuesta a un ejemplo de Jailbreak, descubrimos que el modelo reconoció que se le había pedido información peligrosa mucho antes de que pudiera traer de vuelta la conversación con gracia”, encontraron los investigadores.

¿Cómo se capacita una IA en palabras de palabras matemáticas?

Sobre todo uso ChatGPT para problemas matemáticos, y el modelo tiende a encontrar la respuesta correcta a pesar de algunas alucinaciones en el medio del razonamiento. Entonces, me he preguntado sobre uno de los puntos de Anthrope: ¿el modelo piensa en los números como una especie de letra? Anthrope podría haber identificado exactamente por qué los modelos se comportan así: Claude sigue múltiples rutas computacionales al mismo tiempo para resolver problemas matemáticos.

“Una ruta calcula una aproximación aproximada de la respuesta y la otra se centra en determinar con precisión el último dígito de la suma”, escribió Anthrope.

Por lo tanto, tiene sentido si la salida es correcta, pero la explicación paso a paso no es.

El primer paso de Claude es “analizar la estructura de los números”, encontrar patrones de manera similar a cómo encontraría patrones en letras y palabras. Claude no puede explicar externamente este proceso, así como un humano no puede saber cuál de sus neuronas están disparando; En cambio, Claude producirá una explicación de la forma en que un humano resolvería el problema. Los investigadores antrópicos especularon que esto se debe a que la IA está entrenada en explicaciones de matemáticas escritas por humanos.

¿Qué sigue para la investigación de LLM de Anthrope?

Interpretar los “circuitos” puede ser muy difícil debido a la densidad del rendimiento de la IA generativa. A un humano les tomó unas pocas horas interpretar los circuitos producidos por indicaciones con “decenas de palabras”, dijo Anthrope. Especulan que podría necesitar asistencia de IA para interpretar cómo funciona la IA generativa.

Anthrope dijo que su investigación de LLM está destinada a estar segura de que la IA se alinea con la ética humana; Como tal, la compañía está investigando el monitoreo en tiempo real, las mejoras de los caracteres del modelo y la alineación del modelo.

Leave a Reply

Your email address will not be published. Required fields are marked *