Когда языковые модели признают свои ошибки? Изучение роли уверенности модели в отказе от утверждений
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
May 22, 2025
Авторы: Yuqing Yang, Robin Jia
cs.AI
Аннотация
Способны ли крупные языковые модели (LLM) признавать свои ошибки, когда они должны знать лучше? В данной работе мы определяем поведение признания ошибок в ранее сгенерированных ответах как "отзыв" и стремимся понять, когда и почему LLM выбирают отозвать ответ. Сначала мы создаем специфичные для модели наборы данных, чтобы оценить, будет ли модель отзывать неправильный ответ, который противоречит ее собственным параметрическим знаниям. Хотя LLM способны на отзыв, они делают это лишь редко. Мы показываем, что отзыв тесно связан с ранее выявленными индикаторами внутренних убеждений моделей: модели не отзывают неправильные ответы, которые они "считают" фактически верными. Эксперименты с управлением дополнительно демонстрируют, что внутренние убеждения причинно влияют на отзыв модели. В частности, когда модель не верит в свой ответ, это не только побуждает модель попытаться проверить ответ, но и изменяет поведение внимания во время самопроверки. Наконец, мы показываем, что простое контролируемое тонкое обучение значительно улучшает производительность отзыва, помогая модели усвоить более точные внутренние убеждения. Код и наборы данных доступны на https://github.com/ayyyq/llm-retraction.
English
Can large language models (LLMs) admit their mistakes when they should know
better? In this work, we define the behavior of acknowledging errors in
previously generated answers as "retraction" and aim to understand when and why
LLMs choose to retract. We first construct model-specific datasets to evaluate
whether a model will retract an incorrect answer that contradicts its own
parametric knowledge. While LLMs are capable of retraction, they do so only
infrequently. We demonstrate that retraction is closely tied to previously
identified indicators of models' internal belief: models fail to retract wrong
answers that they "believe" to be factually correct. Steering experiments
further demonstrate that internal belief causally influences model retraction.
In particular, when the model does not believe its answer, this not only
encourages the model to attempt to verify the answer, but also alters attention
behavior during self-verification. Finally, we demonstrate that simple
supervised fine-tuning significantly improves retraction performance by helping
the model learn more accurate internal beliefs. Code and datasets are available
on https://github.com/ayyyq/llm-retraction.Summary
AI-Generated Summary