Wann geben LLMs ihre Fehler zu? Die Rolle des Modellglaubens bei der Rücknahme verstehen
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
May 22, 2025
papers.authors: Yuqing Yang, Robin Jia
cs.AI
papers.abstract
Können große Sprachmodelle (LLMs) ihre Fehler eingestehen, wenn sie es besser wissen sollten? In dieser Arbeit definieren wir das Verhalten, Fehler in zuvor generierten Antworten anzuerkennen, als „Rücknahme“ und zielen darauf ab, zu verstehen, wann und warum LLMs sich dazu entscheiden, eine Antwort zurückzunehmen. Zunächst erstellen wir modellspezifische Datensätze, um zu bewerten, ob ein Modell eine falsche Antwort zurücknimmt, die seinem eigenen parametrischen Wissen widerspricht. Obwohl LLMs in der Lage sind, Antworten zurückzunehmen, tun sie dies nur selten. Wir zeigen, dass die Rücknahme eng mit zuvor identifizierten Indikatoren für die internen Überzeugungen der Modelle verbunden ist: Modelle nehmen falsche Antworten nicht zurück, die sie als faktisch korrekt „glauben“. Steuerungsexperimente zeigen weiter, dass die internen Überzeugungen die Rücknahme des Modells kausal beeinflussen. Insbesondere wenn das Modell seine Antwort nicht glaubt, ermutigt dies das Modell nicht nur, die Antwort zu überprüfen, sondern verändert auch das Aufmerksamkeitsverhalten während der Selbstüberprüfung. Schließlich zeigen wir, dass einfaches überwachtes Feinabstimmen die Rücknahmeleistung signifikant verbessert, indem es dem Modell hilft, genauere interne Überzeugungen zu erlernen. Code und Datensätze sind verfügbar unter https://github.com/ayyyq/llm-retraction.
English
Can large language models (LLMs) admit their mistakes when they should know
better? In this work, we define the behavior of acknowledging errors in
previously generated answers as "retraction" and aim to understand when and why
LLMs choose to retract. We first construct model-specific datasets to evaluate
whether a model will retract an incorrect answer that contradicts its own
parametric knowledge. While LLMs are capable of retraction, they do so only
infrequently. We demonstrate that retraction is closely tied to previously
identified indicators of models' internal belief: models fail to retract wrong
answers that they "believe" to be factually correct. Steering experiments
further demonstrate that internal belief causally influences model retraction.
In particular, when the model does not believe its answer, this not only
encourages the model to attempt to verify the answer, but also alters attention
behavior during self-verification. Finally, we demonstrate that simple
supervised fine-tuning significantly improves retraction performance by helping
the model learn more accurate internal beliefs. Code and datasets are available
on https://github.com/ayyyq/llm-retraction.