Aufmerksamkeit erfüllt: Eine Constraint-Satisfaction-Perspektive auf faktische Fehler von Sprachmodellen

papers.abstract

Wir untersuchen das interne Verhalten von Transformer-basierten Large Language Models (LLMs), wenn sie faktisch inkorrekte Texte generieren. Wir schlagen vor, faktische Abfragen als Constraint Satisfaction Problems zu modellieren und nutzen diesen Rahmen, um zu untersuchen, wie das Modell intern mit faktischen Einschränkungen interagiert. Insbesondere entdecken wir eine starke positive Beziehung zwischen der Aufmerksamkeit des Modells auf Constraint-Tokens und der faktischen Genauigkeit seiner Antworten. In unserem kuratierten Satz von 11 Datensätzen mit über 40.000 Prompts untersuchen wir die Aufgabe der Vorhersage faktischer Fehler mit der Llama-2-Familie über alle Skalen hinweg (7B, 13B, 70B). Wir schlagen SAT Probe vor, eine Methode zur Untersuchung von Self-Attention-Mustern, die die Erfüllung von Einschränkungen und faktische Fehler vorhersagen und eine frühzeitige Fehlererkennung ermöglichen kann. Der Ansatz und die Ergebnisse zeigen, wie das mechanistische Verständnis von Faktizität in LLMs die Zuverlässigkeit verbessern kann.

English

We investigate the internal behavior of Transformer-based Large Language Models (LLMs) when they generate factually incorrect text. We propose modeling factual queries as Constraint Satisfaction Problems and use this framework to investigate how the model interacts internally with factual constraints. Specifically, we discover a strong positive relation between the model's attention to constraint tokens and the factual accuracy of its responses. In our curated suite of 11 datasets with over 40,000 prompts, we study the task of predicting factual errors with the Llama-2 family across all scales (7B, 13B, 70B). We propose SAT Probe, a method probing self-attention patterns, that can predict constraint satisfaction and factual errors, and allows early error identification. The approach and findings demonstrate how using the mechanistic understanding of factuality in LLMs can enhance reliability.

Aufmerksamkeit erfüllt: Eine Constraint-Satisfaction-Perspektive auf faktische Fehler von Sprachmodellen

Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models

papers.abstract

Support