Promover, Suprimir, Iterar: Como Modelos de Linguagem Respondem a Consultas Fatuais de Um-para-Muitos
Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries
February 27, 2025
Autores: Tianyi Lorena Yan, Robin Jia
cs.AI
Resumo
Para responder a consultas factuais de um-para-muitos (por exemplo, listar cidades de um país), um modelo de linguagem (LM) deve simultaneamente recuperar conhecimento e evitar repetir respostas anteriores. Como essas duas subtarefas são implementadas e integradas internamente? Em vários conjuntos de dados e modelos, identificamos um mecanismo de promover-depois-suprimir: o modelo primeiro recupera todas as respostas e, em seguida, suprime as que já foram geradas. Especificamente, os LMs usam tanto o sujeito quanto os tokens de respostas anteriores para realizar a recuperação de conhecimento, com a atenção propagando informações sobre o sujeito e os MLPs promovendo as respostas. Em seguida, a atenção se concentra e suprime os tokens de respostas anteriores, enquanto os MLPs amplificam o sinal de supressão. Nosso mecanismo é corroborado por evidências experimentais extensas: além de usar decodificação precoce e rastreamento causal, analisamos como os componentes usam diferentes tokens ao introduzir tanto o Token Lens, que decodifica atualizações de atenção agregadas de tokens especificados, quanto um método de knockout que analisa mudanças nas saídas dos MLPs após a remoção da atenção para tokens especificados. No geral, fornecemos novos insights sobre como os componentes internos dos LMs interagem com diferentes tokens de entrada para suportar a recuperação factual complexa. O código está disponível em https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.
English
To answer one-to-many factual queries (e.g., listing cities of a country), a
language model (LM) must simultaneously recall knowledge and avoid repeating
previous answers. How are these two subtasks implemented and integrated
internally? Across multiple datasets and models, we identify a
promote-then-suppress mechanism: the model first recalls all answers, and then
suppresses previously generated ones. Specifically, LMs use both the subject
and previous answer tokens to perform knowledge recall, with attention
propagating subject information and MLPs promoting the answers. Then, attention
attends to and suppresses previous answer tokens, while MLPs amplify the
suppression signal. Our mechanism is corroborated by extensive experimental
evidence: in addition to using early decoding and causal tracing, we analyze
how components use different tokens by introducing both Token Lens, which
decodes aggregated attention updates from specified tokens, and a knockout
method that analyzes changes in MLP outputs after removing attention to
specified tokens. Overall, we provide new insights into how LMs' internal
components interact with different input tokens to support complex factual
recall. Code is available at
https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.Summary
AI-Generated Summary