Promouvoir, Supprimer, Itérer : Comment les Modèles de Langage Répondent aux Requêtes Factuelles à Réponses Multiples

Résumé

Pour répondre aux requêtes factuelles de type un-à-plusieurs (par exemple, lister les villes d'un pays), un modèle de langage (LM) doit simultanément rappeler des connaissances et éviter de répéter les réponses précédentes. Comment ces deux sous-tâches sont-elles implémentées et intégrées en interne ? À travers plusieurs jeux de données et modèles, nous identifions un mécanisme de promotion puis de suppression : le modèle rappelle d'abord toutes les réponses, puis supprime celles déjà générées. Plus précisément, les LMs utilisent à la fois le sujet et les tokens des réponses précédentes pour effectuer le rappel de connaissances, avec l'attention qui propage l'information du sujet et les MLPs qui promeuvent les réponses. Ensuite, l'attention se concentre sur et supprime les tokens des réponses précédentes, tandis que les MLPs amplifient le signal de suppression. Notre mécanisme est corroboré par des preuves expérimentales approfondies : en plus d'utiliser le décodage précoce et le traçage causal, nous analysons comment les composants utilisent différents tokens en introduisant à la fois Token Lens, qui décode les mises à jour agrégées de l'attention à partir de tokens spécifiés, et une méthode de knockout qui analyse les changements dans les sorties des MLPs après avoir supprimé l'attention sur des tokens spécifiés. Globalement, nous apportons de nouvelles perspectives sur la manière dont les composants internes des LMs interagissent avec différents tokens d'entrée pour soutenir le rappel complexe de faits. Le code est disponible à l'adresse suivante : https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.

English

To answer one-to-many factual queries (e.g., listing cities of a country), a language model (LM) must simultaneously recall knowledge and avoid repeating previous answers. How are these two subtasks implemented and integrated internally? Across multiple datasets and models, we identify a promote-then-suppress mechanism: the model first recalls all answers, and then suppresses previously generated ones. Specifically, LMs use both the subject and previous answer tokens to perform knowledge recall, with attention propagating subject information and MLPs promoting the answers. Then, attention attends to and suppresses previous answer tokens, while MLPs amplify the suppression signal. Our mechanism is corroborated by extensive experimental evidence: in addition to using early decoding and causal tracing, we analyze how components use different tokens by introducing both Token Lens, which decodes aggregated attention updates from specified tokens, and a knockout method that analyzes changes in MLP outputs after removing attention to specified tokens. Overall, we provide new insights into how LMs' internal components interact with different input tokens to support complex factual recall. Code is available at https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.

Promouvoir, Supprimer, Itérer : Comment les Modèles de Langage Répondent aux Requêtes Factuelles à Réponses Multiples

Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

Résumé

Support