¿Cuándo los LLM admiten sus errores? Comprendiendo el papel de la creencia del modelo en la retractación
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
May 22, 2025
Autores: Yuqing Yang, Robin Jia
cs.AI
Resumen
¿Pueden los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) admitir sus errores cuando deberían saber mejor? En este trabajo, definimos el comportamiento de reconocer errores en respuestas previamente generadas como "retractación" y buscamos comprender cuándo y por qué los LLMs eligen retractarse. Primero, construimos conjuntos de datos específicos para cada modelo con el fin de evaluar si un modelo se retractará de una respuesta incorrecta que contradice su propio conocimiento paramétrico. Aunque los LLMs son capaces de retractarse, lo hacen solo de manera infrecuente. Demostramos que la retractación está estrechamente relacionada con indicadores previamente identificados de las creencias internas de los modelos: los modelos no se retractan de respuestas incorrectas que "creen" que son factualmente correctas. Experimentos de direccionamiento demuestran además que las creencias internas influyen causalmente en la retractación del modelo. En particular, cuando el modelo no cree en su respuesta, esto no solo lo alienta a intentar verificar la respuesta, sino que también altera el comportamiento de atención durante la autoverificación. Finalmente, demostramos que un simple ajuste fino supervisado mejora significativamente el rendimiento de la retractación al ayudar al modelo a aprender creencias internas más precisas. El código y los conjuntos de datos están disponibles en https://github.com/ayyyq/llm-retraction.
English
Can large language models (LLMs) admit their mistakes when they should know
better? In this work, we define the behavior of acknowledging errors in
previously generated answers as "retraction" and aim to understand when and why
LLMs choose to retract. We first construct model-specific datasets to evaluate
whether a model will retract an incorrect answer that contradicts its own
parametric knowledge. While LLMs are capable of retraction, they do so only
infrequently. We demonstrate that retraction is closely tied to previously
identified indicators of models' internal belief: models fail to retract wrong
answers that they "believe" to be factually correct. Steering experiments
further demonstrate that internal belief causally influences model retraction.
In particular, when the model does not believe its answer, this not only
encourages the model to attempt to verify the answer, but also alters attention
behavior during self-verification. Finally, we demonstrate that simple
supervised fine-tuning significantly improves retraction performance by helping
the model learn more accurate internal beliefs. Code and datasets are available
on https://github.com/ayyyq/llm-retraction.Summary
AI-Generated Summary