Promover, Suprimir, Iterar: Cómo los Modelos de Lenguaje Responden a Consultas Factuales de Uno a Muchos
Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries
February 27, 2025
Autores: Tianyi Lorena Yan, Robin Jia
cs.AI
Resumen
Para responder consultas factuales de uno a muchos (por ejemplo, listar las ciudades de un país), un modelo de lenguaje (LM, por sus siglas en inglés) debe recordar conocimiento simultáneamente y evitar repetir respuestas anteriores. ¿Cómo se implementan e integran internamente estas dos subtareas? A través de múltiples conjuntos de datos y modelos, identificamos un mecanismo de promover-y-luego-suprimir: el modelo primero recuerda todas las respuestas y luego suprime las generadas previamente. Específicamente, los LMs utilizan tanto el sujeto como los tokens de respuestas anteriores para realizar el recuerdo de conocimiento, con la atención propagando la información del sujeto y las MLPs (capas de perceptrones multicapa) promoviendo las respuestas. Luego, la atención se enfoca en y suprime los tokens de respuestas anteriores, mientras que las MLPs amplifican la señal de supresión. Nuestro mecanismo está respaldado por evidencia experimental extensa: además de utilizar decodificación temprana y trazado causal, analizamos cómo los componentes utilizan diferentes tokens mediante la introducción de Token Lens, que decodifica actualizaciones de atención agregadas desde tokens específicos, y un método de knockout que analiza cambios en las salidas de las MLPs después de eliminar la atención a tokens específicos. En general, proporcionamos nuevas perspectivas sobre cómo los componentes internos de los LMs interactúan con diferentes tokens de entrada para respaldar el recuerdo factual complejo. El código está disponible en https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.
English
To answer one-to-many factual queries (e.g., listing cities of a country), a
language model (LM) must simultaneously recall knowledge and avoid repeating
previous answers. How are these two subtasks implemented and integrated
internally? Across multiple datasets and models, we identify a
promote-then-suppress mechanism: the model first recalls all answers, and then
suppresses previously generated ones. Specifically, LMs use both the subject
and previous answer tokens to perform knowledge recall, with attention
propagating subject information and MLPs promoting the answers. Then, attention
attends to and suppresses previous answer tokens, while MLPs amplify the
suppression signal. Our mechanism is corroborated by extensive experimental
evidence: in addition to using early decoding and causal tracing, we analyze
how components use different tokens by introducing both Token Lens, which
decodes aggregated attention updates from specified tokens, and a knockout
method that analyzes changes in MLP outputs after removing attention to
specified tokens. Overall, we provide new insights into how LMs' internal
components interact with different input tokens to support complex factual
recall. Code is available at
https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.Summary
AI-Generated Summary