Promuovere, Sopprimere, Iterare: Come i Modelli Linguistici Rispondono alle Query Fattuali Uno-a-Molti

Abstract

Per rispondere a query fattuali uno-a-molti (ad esempio, elencare le città di un paese), un modello linguistico (LM) deve simultaneamente richiamare conoscenze ed evitare di ripetere risposte precedenti. Come vengono implementate e integrate internamente queste due sotto-attività? Attraverso più dataset e modelli, identifichiamo un meccanismo di promozione-seguita-da-soppressione: il modello prima richiama tutte le risposte, e poi sopprime quelle già generate. Nello specifico, i LM utilizzano sia il soggetto che i token delle risposte precedenti per eseguire il richiamo della conoscenza, con l'attenzione che propaga le informazioni sul soggetto e i MLP che promuovono le risposte. Successivamente, l'attenzione si concentra e sopprime i token delle risposte precedenti, mentre i MLP amplificano il segnale di soppressione. Il nostro meccanismo è corroborato da ampie evidenze sperimentali: oltre a utilizzare il decoding precoce e il tracciamento causale, analizziamo come i componenti utilizzano diversi token introducendo sia Token Lens, che decodifica gli aggiornamenti aggregati dell'attenzione da token specifici, sia un metodo di knockout che analizza i cambiamenti negli output dei MLP dopo aver rimosso l'attenzione su token specifici. In sintesi, forniamo nuove intuizioni su come i componenti interni dei LM interagiscono con diversi token di input per supportare il complesso richiamo di informazioni fattuali. Il codice è disponibile all'indirizzo https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.

English

To answer one-to-many factual queries (e.g., listing cities of a country), a language model (LM) must simultaneously recall knowledge and avoid repeating previous answers. How are these two subtasks implemented and integrated internally? Across multiple datasets and models, we identify a promote-then-suppress mechanism: the model first recalls all answers, and then suppresses previously generated ones. Specifically, LMs use both the subject and previous answer tokens to perform knowledge recall, with attention propagating subject information and MLPs promoting the answers. Then, attention attends to and suppresses previous answer tokens, while MLPs amplify the suppression signal. Our mechanism is corroborated by extensive experimental evidence: in addition to using early decoding and causal tracing, we analyze how components use different tokens by introducing both Token Lens, which decodes aggregated attention updates from specified tokens, and a knockout method that analyzes changes in MLP outputs after removing attention to specified tokens. Overall, we provide new insights into how LMs' internal components interact with different input tokens to support complex factual recall. Code is available at https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.

Promuovere, Sopprimere, Iterare: Come i Modelli Linguistici Rispondono alle Query Fattuali Uno-a-Molti

Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

Abstract

Support