Quando os LLMs Admitem Seus Erros? Compreendendo o Papel da Crença do Modelo na Retratação
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
May 22, 2025
Autores: Yuqing Yang, Robin Jia
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) podem admitir seus erros quando deveriam saber melhor? Neste trabalho, definimos o comportamento de reconhecer erros em respostas previamente geradas como "retratação" e buscamos entender quando e por que os LLMs escolhem se retratar. Primeiro, construímos conjuntos de dados específicos para cada modelo a fim de avaliar se um modelo irá retratar uma resposta incorreta que contradiz seu próprio conhecimento paramétrico. Embora os LLMs sejam capazes de se retratar, eles o fazem apenas raramente. Demonstramos que a retratação está intimamente ligada a indicadores previamente identificados das crenças internas dos modelos: os modelos falham em retratar respostas erradas que eles "acreditam" serem factualmente corretas. Experimentos de direcionamento demonstram ainda que a crença interna influencia causalmente a retratação do modelo. Em particular, quando o modelo não acredita em sua resposta, isso não apenas incentiva o modelo a tentar verificar a resposta, mas também altera o comportamento de atenção durante a autoverificação. Por fim, demonstramos que uma simples fine-tuning supervisionada melhora significativamente o desempenho de retratação, ajudando o modelo a aprender crenças internas mais precisas. Códigos e conjuntos de dados estão disponíveis em https://github.com/ayyyq/llm-retraction.
English
Can large language models (LLMs) admit their mistakes when they should know
better? In this work, we define the behavior of acknowledging errors in
previously generated answers as "retraction" and aim to understand when and why
LLMs choose to retract. We first construct model-specific datasets to evaluate
whether a model will retract an incorrect answer that contradicts its own
parametric knowledge. While LLMs are capable of retraction, they do so only
infrequently. We demonstrate that retraction is closely tied to previously
identified indicators of models' internal belief: models fail to retract wrong
answers that they "believe" to be factually correct. Steering experiments
further demonstrate that internal belief causally influences model retraction.
In particular, when the model does not believe its answer, this not only
encourages the model to attempt to verify the answer, but also alters attention
behavior during self-verification. Finally, we demonstrate that simple
supervised fine-tuning significantly improves retraction performance by helping
the model learn more accurate internal beliefs. Code and datasets are available
on https://github.com/ayyyq/llm-retraction.