Wann geben LLMs ihre Fehler zu? Die Rolle des Modellglaubens bei der Rücknahme verstehen

papers.abstract

Können große Sprachmodelle (LLMs) ihre Fehler eingestehen, wenn sie es besser wissen sollten? In dieser Arbeit definieren wir das Verhalten, Fehler in zuvor generierten Antworten anzuerkennen, als „Rücknahme“ und zielen darauf ab, zu verstehen, wann und warum LLMs sich dazu entscheiden, eine Antwort zurückzunehmen. Zunächst erstellen wir modellspezifische Datensätze, um zu bewerten, ob ein Modell eine falsche Antwort zurücknimmt, die seinem eigenen parametrischen Wissen widerspricht. Obwohl LLMs in der Lage sind, Antworten zurückzunehmen, tun sie dies nur selten. Wir zeigen, dass die Rücknahme eng mit zuvor identifizierten Indikatoren für die internen Überzeugungen der Modelle verbunden ist: Modelle nehmen falsche Antworten nicht zurück, die sie als faktisch korrekt „glauben“. Steuerungsexperimente zeigen weiter, dass die internen Überzeugungen die Rücknahme des Modells kausal beeinflussen. Insbesondere wenn das Modell seine Antwort nicht glaubt, ermutigt dies das Modell nicht nur, die Antwort zu überprüfen, sondern verändert auch das Aufmerksamkeitsverhalten während der Selbstüberprüfung. Schließlich zeigen wir, dass einfaches überwachtes Feinabstimmen die Rücknahmeleistung signifikant verbessert, indem es dem Modell hilft, genauere interne Überzeugungen zu erlernen. Code und Datensätze sind verfügbar unter https://github.com/ayyyq/llm-retraction.

English

Can large language models (LLMs) admit their mistakes when they should know better? In this work, we define the behavior of acknowledging errors in previously generated answers as "retraction" and aim to understand when and why LLMs choose to retract. We first construct model-specific datasets to evaluate whether a model will retract an incorrect answer that contradicts its own parametric knowledge. While LLMs are capable of retraction, they do so only infrequently. We demonstrate that retraction is closely tied to previously identified indicators of models' internal belief: models fail to retract wrong answers that they "believe" to be factually correct. Steering experiments further demonstrate that internal belief causally influences model retraction. In particular, when the model does not believe its answer, this not only encourages the model to attempt to verify the answer, but also alters attention behavior during self-verification. Finally, we demonstrate that simple supervised fine-tuning significantly improves retraction performance by helping the model learn more accurate internal beliefs. Code and datasets are available on https://github.com/ayyyq/llm-retraction.

Wann geben LLMs ihre Fehler zu? Die Rolle des Modellglaubens bei der Rücknahme verstehen

When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction

papers.abstract

Support