Wanneer Erkennen LLM's Hun Fouten? Het Begrijpen van de Rol van Modelovertuiging bij Terugtrekking

Samenvatting

Kunnen grote taalmodellen (LLM's) hun fouten toegeven wanneer ze beter zouden moeten weten? In dit werk definiëren we het gedrag van het erkennen van fouten in eerder gegenereerde antwoorden als "terugtrekking" en streven we ernaar te begrijpen wanneer en waarom LLM's ervoor kiezen om antwoorden terug te trekken. We construeren eerst model-specifieke datasets om te evalueren of een model een incorrect antwoord dat in tegenspraak is met zijn eigen parametrische kennis, zal terugtrekken. Hoewel LLM's in staat zijn tot terugtrekking, doen ze dit slechts sporadisch. We tonen aan dat terugtrekking nauw verbonden is met eerder geïdentificeerde indicatoren van de interne overtuiging van modellen: modellen falen in het terugtrekken van foute antwoorden waarvan ze "geloven" dat ze feitelijk correct zijn. Sturende experimenten tonen verder aan dat interne overtuiging causale invloed heeft op modelterugtrekking. In het bijzonder, wanneer het model niet gelooft in zijn antwoord, moedigt dit niet alleen het model aan om te proberen het antwoord te verifiëren, maar verandert het ook het aandachtgedrag tijdens zelfverificatie. Tot slot demonstreren we dat eenvoudige supervised fine-tuning de prestaties van terugtrekking aanzienlijk verbetert door het model te helpen meer accurate interne overtuigingen te leren. Code en datasets zijn beschikbaar op https://github.com/ayyyq/llm-retraction.

English

Can large language models (LLMs) admit their mistakes when they should know better? In this work, we define the behavior of acknowledging errors in previously generated answers as "retraction" and aim to understand when and why LLMs choose to retract. We first construct model-specific datasets to evaluate whether a model will retract an incorrect answer that contradicts its own parametric knowledge. While LLMs are capable of retraction, they do so only infrequently. We demonstrate that retraction is closely tied to previously identified indicators of models' internal belief: models fail to retract wrong answers that they "believe" to be factually correct. Steering experiments further demonstrate that internal belief causally influences model retraction. In particular, when the model does not believe its answer, this not only encourages the model to attempt to verify the answer, but also alters attention behavior during self-verification. Finally, we demonstrate that simple supervised fine-tuning significantly improves retraction performance by helping the model learn more accurate internal beliefs. Code and datasets are available on https://github.com/ayyyq/llm-retraction.

Wanneer Erkennen LLM's Hun Fouten? Het Begrijpen van de Rol van Modelovertuiging bij Terugtrekking

When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction

Samenvatting

Support