Bevorder, Onderdruk, Itereer: Hoe Taalmodellen Eén-op-Veel Feitelijke Vragen Beantwoorden
Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries
February 27, 2025
Auteurs: Tianyi Lorena Yan, Robin Jia
cs.AI
Samenvatting
Om één-op-veel feitelijke vragen te beantwoorden (bijvoorbeeld het opsommen van steden in een land), moet een taalmodel (LM) tegelijkertijd kennis oproepen en herhaling van eerder gegeven antwoorden vermijden. Hoe worden deze twee subtaken intern geïmplementeerd en geïntegreerd? Over meerdere datasets en modellen identificeren we een promote-then-suppress-mechanisme: het model roept eerst alle antwoorden op en onderdrukt vervolgens eerder gegenereerde antwoorden. Specifiek gebruiken LMs zowel het onderwerp als eerder gegenereerde antwoordtokens om kennis op te roepen, waarbij aandacht (attention) onderwerpinformatie verspreidt en MLPs (multi-layer perceptrons) de antwoorden bevorderen. Vervolgens richt aandacht zich op en onderdrukt eerder gegenereerde antwoordtokens, terwijl MLPs het onderdrukkingssignaal versterken. Ons mechanisme wordt ondersteund door uitgebreid experimenteel bewijs: naast het gebruik van early decoding en causal tracing, analyseren we hoe componenten verschillende tokens gebruiken door zowel Token Lens te introduceren, die geaggregeerde aandachtupdates van gespecificeerde tokens decodeert, als een knockout-methode die veranderingen in MLP-outputs analyseert na het verwijderen van aandacht naar gespecificeerde tokens. Over het geheel genomen bieden we nieuwe inzichten in hoe interne componenten van LMs interageren met verschillende invoertokens om complexe feitelijke herinnering te ondersteunen. Code is beschikbaar op https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.
English
To answer one-to-many factual queries (e.g., listing cities of a country), a
language model (LM) must simultaneously recall knowledge and avoid repeating
previous answers. How are these two subtasks implemented and integrated
internally? Across multiple datasets and models, we identify a
promote-then-suppress mechanism: the model first recalls all answers, and then
suppresses previously generated ones. Specifically, LMs use both the subject
and previous answer tokens to perform knowledge recall, with attention
propagating subject information and MLPs promoting the answers. Then, attention
attends to and suppresses previous answer tokens, while MLPs amplify the
suppression signal. Our mechanism is corroborated by extensive experimental
evidence: in addition to using early decoding and causal tracing, we analyze
how components use different tokens by introducing both Token Lens, which
decodes aggregated attention updates from specified tokens, and a knockout
method that analyzes changes in MLP outputs after removing attention to
specified tokens. Overall, we provide new insights into how LMs' internal
components interact with different input tokens to support complex factual
recall. Code is available at
https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.Summary
AI-Generated Summary