Quando i Modelli Linguistici di Grandi Dimensioni (LLM) Ammettono i Loro Errori? Comprendere il Ruolo della Fiducia del Modello nella Ritrattazione
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
May 22, 2025
Autori: Yuqing Yang, Robin Jia
cs.AI
Abstract
I grandi modelli linguistici (LLM) sono in grado di ammettere i propri errori quando dovrebbero saperne di più? In questo lavoro, definiamo il comportamento di riconoscere gli errori nelle risposte precedentemente generate come "ritrattazione" e miriamo a comprendere quando e perché gli LLM scelgono di ritrattare. In primo luogo, costruiamo dataset specifici per modello per valutare se un modello ritratterà una risposta errata che contraddice la propria conoscenza parametrica. Sebbene gli LLM siano capaci di ritrattazione, lo fanno solo raramente. Dimostriamo che la ritrattazione è strettamente legata a indicatori precedentemente identificati delle convinzioni interne dei modelli: i modelli non ritrattano risposte errate che "credono" essere fattualmente corrette. Esperimenti di guida dimostrano ulteriormente che le convinzioni interne influenzano causalmente la ritrattazione del modello. In particolare, quando il modello non crede nella propria risposta, ciò non solo incoraggia il modello a tentare di verificare la risposta, ma altera anche il comportamento dell'attenzione durante l'autoverifica. Infine, dimostriamo che una semplice messa a punto supervisionata migliora significativamente le prestazioni di ritrattazione aiutando il modello a apprendere convinzioni interne più accurate. Codice e dataset sono disponibili su https://github.com/ayyyq/llm-retraction.
English
Can large language models (LLMs) admit their mistakes when they should know
better? In this work, we define the behavior of acknowledging errors in
previously generated answers as "retraction" and aim to understand when and why
LLMs choose to retract. We first construct model-specific datasets to evaluate
whether a model will retract an incorrect answer that contradicts its own
parametric knowledge. While LLMs are capable of retraction, they do so only
infrequently. We demonstrate that retraction is closely tied to previously
identified indicators of models' internal belief: models fail to retract wrong
answers that they "believe" to be factually correct. Steering experiments
further demonstrate that internal belief causally influences model retraction.
In particular, when the model does not believe its answer, this not only
encourages the model to attempt to verify the answer, but also alters attention
behavior during self-verification. Finally, we demonstrate that simple
supervised fine-tuning significantly improves retraction performance by helping
the model learn more accurate internal beliefs. Code and datasets are available
on https://github.com/ayyyq/llm-retraction.