L'attention satisfait : Une perspective de satisfaction de contraintes sur les erreurs factuelles des modèles de langage
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models
September 26, 2023
Auteurs: Mert Yuksekgonul, Varun Chandrasekaran, Erik Jones, Suriya Gunasekar, Ranjita Naik, Hamid Palangi, Ece Kamar, Besmira Nushi
cs.AI
Résumé
Nous étudions le comportement interne des modèles de langage de grande taille (LLMs) basés sur l'architecture Transformer lorsqu'ils génèrent du texte factuellement incorrect. Nous proposons de modéliser les requêtes factuelles comme des problèmes de satisfaction de contraintes et utilisons ce cadre pour examiner comment le modèle interagit en interne avec les contraintes factuelles. Plus précisément, nous découvrons une forte relation positive entre l'attention du modèle portée aux tokens de contrainte et l'exactitude factuelle de ses réponses. Dans notre ensemble de 11 jeux de données soigneusement sélectionnés, comprenant plus de 40 000 prompts, nous étudions la tâche de prédiction des erreurs factuelles avec la famille Llama-2 à toutes les échelles (7B, 13B, 70B). Nous proposons SAT Probe, une méthode sondant les motifs d'auto-attention, capable de prédire la satisfaction des contraintes et les erreurs factuelles, et permettant une identification précoce des erreurs. Cette approche et ces résultats démontrent comment l'utilisation de la compréhension mécaniste de la factualité dans les LLMs peut améliorer la fiabilité.
English
We investigate the internal behavior of Transformer-based Large Language
Models (LLMs) when they generate factually incorrect text. We propose modeling
factual queries as Constraint Satisfaction Problems and use this framework to
investigate how the model interacts internally with factual constraints.
Specifically, we discover a strong positive relation between the model's
attention to constraint tokens and the factual accuracy of its responses. In
our curated suite of 11 datasets with over 40,000 prompts, we study the task of
predicting factual errors with the Llama-2 family across all scales (7B, 13B,
70B). We propose SAT Probe, a method probing self-attention patterns, that can
predict constraint satisfaction and factual errors, and allows early error
identification. The approach and findings demonstrate how using the mechanistic
understanding of factuality in LLMs can enhance reliability.