Aufmerksamkeit erfüllt: Eine Constraint-Satisfaction-Perspektive auf faktische Fehler von Sprachmodellen
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models
September 26, 2023
Autoren: Mert Yuksekgonul, Varun Chandrasekaran, Erik Jones, Suriya Gunasekar, Ranjita Naik, Hamid Palangi, Ece Kamar, Besmira Nushi
cs.AI
Zusammenfassung
Wir untersuchen das interne Verhalten von Transformer-basierten Large Language Models (LLMs), wenn sie faktisch inkorrekte Texte generieren. Wir schlagen vor, faktische Abfragen als Constraint Satisfaction Problems zu modellieren und nutzen diesen Rahmen, um zu untersuchen, wie das Modell intern mit faktischen Einschränkungen interagiert. Insbesondere entdecken wir eine starke positive Beziehung zwischen der Aufmerksamkeit des Modells auf Constraint-Tokens und der faktischen Genauigkeit seiner Antworten. In unserem kuratierten Satz von 11 Datensätzen mit über 40.000 Prompts untersuchen wir die Aufgabe der Vorhersage faktischer Fehler mit der Llama-2-Familie über alle Skalen hinweg (7B, 13B, 70B). Wir schlagen SAT Probe vor, eine Methode zur Untersuchung von Self-Attention-Mustern, die die Erfüllung von Einschränkungen und faktische Fehler vorhersagen und eine frühzeitige Fehlererkennung ermöglichen kann. Der Ansatz und die Ergebnisse zeigen, wie das mechanistische Verständnis von Faktizität in LLMs die Zuverlässigkeit verbessern kann.
English
We investigate the internal behavior of Transformer-based Large Language
Models (LLMs) when they generate factually incorrect text. We propose modeling
factual queries as Constraint Satisfaction Problems and use this framework to
investigate how the model interacts internally with factual constraints.
Specifically, we discover a strong positive relation between the model's
attention to constraint tokens and the factual accuracy of its responses. In
our curated suite of 11 datasets with over 40,000 prompts, we study the task of
predicting factual errors with the Llama-2 family across all scales (7B, 13B,
70B). We propose SAT Probe, a method probing self-attention patterns, that can
predict constraint satisfaction and factual errors, and allows early error
identification. The approach and findings demonstrate how using the mechanistic
understanding of factuality in LLMs can enhance reliability.