Quand les LLM reconnaissent-ils leurs erreurs ? Comprendre le rôle de la croyance du modèle dans la rétractation
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
May 22, 2025
Auteurs: Yuqing Yang, Robin Jia
cs.AI
Résumé
Les grands modèles de langage (LLMs) peuvent-ils admettre leurs erreurs lorsqu’ils devraient savoir mieux faire ? Dans ce travail, nous définissons le comportement consistant à reconnaître des erreurs dans des réponses précédemment générées comme une « rétractation » et cherchons à comprendre quand et pourquoi les LLMs choisissent de se rétracter. Nous construisons d’abord des ensembles de données spécifiques aux modèles pour évaluer si un modèle se rétractera d’une réponse incorrecte qui contredit ses propres connaissances paramétriques. Bien que les LLMs soient capables de se rétracter, ils le font rarement. Nous montrons que la rétractation est étroitement liée à des indicateurs précédemment identifiés de la croyance interne des modèles : les modèles ne se rétractent pas des réponses erronées qu’ils « croient » être factuellement correctes. Des expériences de pilotage démontrent en outre que la croyance interne influence causalement la rétractation du modèle. En particulier, lorsque le modèle ne croit pas en sa réponse, cela l’encourage non seulement à tenter de vérifier la réponse, mais modifie également le comportement d’attention lors de l’auto-vérification. Enfin, nous montrons qu’un simple fine-tuning supervisé améliore significativement les performances de rétractation en aidant le modèle à apprendre des croyances internes plus précises. Le code et les ensembles de données sont disponibles sur https://github.com/ayyyq/llm-retraction.
English
Can large language models (LLMs) admit their mistakes when they should know
better? In this work, we define the behavior of acknowledging errors in
previously generated answers as "retraction" and aim to understand when and why
LLMs choose to retract. We first construct model-specific datasets to evaluate
whether a model will retract an incorrect answer that contradicts its own
parametric knowledge. While LLMs are capable of retraction, they do so only
infrequently. We demonstrate that retraction is closely tied to previously
identified indicators of models' internal belief: models fail to retract wrong
answers that they "believe" to be factually correct. Steering experiments
further demonstrate that internal belief causally influences model retraction.
In particular, when the model does not believe its answer, this not only
encourages the model to attempt to verify the answer, but also alters attention
behavior during self-verification. Finally, we demonstrate that simple
supervised fine-tuning significantly improves retraction performance by helping
the model learn more accurate internal beliefs. Code and datasets are available
on https://github.com/ayyyq/llm-retraction.Summary
AI-Generated Summary