Quand les LLM reconnaissent-ils leurs erreurs ? Comprendre le rôle de la croyance du modèle dans la rétractation

papers.abstract

Les grands modèles de langage (LLMs) peuvent-ils admettre leurs erreurs lorsqu’ils devraient savoir mieux faire ? Dans ce travail, nous définissons le comportement consistant à reconnaître des erreurs dans des réponses précédemment générées comme une « rétractation » et cherchons à comprendre quand et pourquoi les LLMs choisissent de se rétracter. Nous construisons d’abord des ensembles de données spécifiques aux modèles pour évaluer si un modèle se rétractera d’une réponse incorrecte qui contredit ses propres connaissances paramétriques. Bien que les LLMs soient capables de se rétracter, ils le font rarement. Nous montrons que la rétractation est étroitement liée à des indicateurs précédemment identifiés de la croyance interne des modèles : les modèles ne se rétractent pas des réponses erronées qu’ils « croient » être factuellement correctes. Des expériences de pilotage démontrent en outre que la croyance interne influence causalement la rétractation du modèle. En particulier, lorsque le modèle ne croit pas en sa réponse, cela l’encourage non seulement à tenter de vérifier la réponse, mais modifie également le comportement d’attention lors de l’auto-vérification. Enfin, nous montrons qu’un simple fine-tuning supervisé améliore significativement les performances de rétractation en aidant le modèle à apprendre des croyances internes plus précises. Le code et les ensembles de données sont disponibles sur https://github.com/ayyyq/llm-retraction.

English

Can large language models (LLMs) admit their mistakes when they should know better? In this work, we define the behavior of acknowledging errors in previously generated answers as "retraction" and aim to understand when and why LLMs choose to retract. We first construct model-specific datasets to evaluate whether a model will retract an incorrect answer that contradicts its own parametric knowledge. While LLMs are capable of retraction, they do so only infrequently. We demonstrate that retraction is closely tied to previously identified indicators of models' internal belief: models fail to retract wrong answers that they "believe" to be factually correct. Steering experiments further demonstrate that internal belief causally influences model retraction. In particular, when the model does not believe its answer, this not only encourages the model to attempt to verify the answer, but also alters attention behavior during self-verification. Finally, we demonstrate that simple supervised fine-tuning significantly improves retraction performance by helping the model learn more accurate internal beliefs. Code and datasets are available on https://github.com/ayyyq/llm-retraction.

Quand les LLM reconnaissent-ils leurs erreurs ? Comprendre le rôle de la croyance du modèle dans la rétractation

When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction

papers.abstract

Support