Promover, Suprimir, Iterar: Cómo los Modelos de Lenguaje Responden a Consultas Factuales de Uno a Muchos

Resumen

Para responder consultas factuales de uno a muchos (por ejemplo, listar las ciudades de un país), un modelo de lenguaje (LM, por sus siglas en inglés) debe recordar conocimiento simultáneamente y evitar repetir respuestas anteriores. ¿Cómo se implementan e integran internamente estas dos subtareas? A través de múltiples conjuntos de datos y modelos, identificamos un mecanismo de promover-y-luego-suprimir: el modelo primero recuerda todas las respuestas y luego suprime las generadas previamente. Específicamente, los LMs utilizan tanto el sujeto como los tokens de respuestas anteriores para realizar el recuerdo de conocimiento, con la atención propagando la información del sujeto y las MLPs (capas de perceptrones multicapa) promoviendo las respuestas. Luego, la atención se enfoca en y suprime los tokens de respuestas anteriores, mientras que las MLPs amplifican la señal de supresión. Nuestro mecanismo está respaldado por evidencia experimental extensa: además de utilizar decodificación temprana y trazado causal, analizamos cómo los componentes utilizan diferentes tokens mediante la introducción de Token Lens, que decodifica actualizaciones de atención agregadas desde tokens específicos, y un método de knockout que analiza cambios en las salidas de las MLPs después de eliminar la atención a tokens específicos. En general, proporcionamos nuevas perspectivas sobre cómo los componentes internos de los LMs interactúan con diferentes tokens de entrada para respaldar el recuerdo factual complejo. El código está disponible en https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.

English

To answer one-to-many factual queries (e.g., listing cities of a country), a language model (LM) must simultaneously recall knowledge and avoid repeating previous answers. How are these two subtasks implemented and integrated internally? Across multiple datasets and models, we identify a promote-then-suppress mechanism: the model first recalls all answers, and then suppresses previously generated ones. Specifically, LMs use both the subject and previous answer tokens to perform knowledge recall, with attention propagating subject information and MLPs promoting the answers. Then, attention attends to and suppresses previous answer tokens, while MLPs amplify the suppression signal. Our mechanism is corroborated by extensive experimental evidence: in addition to using early decoding and causal tracing, we analyze how components use different tokens by introducing both Token Lens, which decodes aggregated attention updates from specified tokens, and a knockout method that analyzes changes in MLP outputs after removing attention to specified tokens. Overall, we provide new insights into how LMs' internal components interact with different input tokens to support complex factual recall. Code is available at https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.

Promover, Suprimir, Iterar: Cómo los Modelos de Lenguaje Responden a Consultas Factuales de Uno a Muchos

Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

Resumen

Support