ChatPaper.aiChatPaper

Бенчмарк Self-Correction: Выявление и устранение слепого пятна самокоррекции в крупных языковых моделях

Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs

July 3, 2025
Авторы: Ken Tsui
cs.AI

Аннотация

Хотя крупные языковые модели (LLM) стали революционными, они всё ещё допускают ошибки и могут исследовать непродуктивные пути рассуждений. Самокоррекция — это важная способность для надежной LLM, особенно для авторегрессионной модели. Хотя LLM могут выявлять ошибки во входных данных пользователя, они демонстрируют систематическую "слепую зону самокоррекции" — неспособность исправлять идентичные ошибки в своих собственных выводах. Для систематического изучения этого явления мы представляем Self-Correction Bench — систематическую структуру для измерения этого феномена через контролируемое внедрение ошибок на трёх уровнях сложности. Протестировав 14 моделей, мы обнаружили средний показатель слепой зоны в 64,5%. Мы находим множество свидетельств того, что это ограничение связано с составом обучающих данных: демонстрации, созданные людьми, преимущественно показывают безошибочные ответы, а не последовательности исправления ошибок, в отличие от моделей, обученных с подкреплением, которые учатся исправлять ошибки через обратную связь по результатам. Примечательно, что простое добавление слова "Подождите" снижает слепые зоны на 89,3%, что указывает на существование этой способности, но требующей активации. Наша работа подчеркивает критическое ограничение современных LLM и предлагает потенциальные пути для повышения их надежности и доверия.
English
Although large language models (LLMs) have become transformative, they still make mistakes and can explore unproductive reasoning paths. Self-correction is an important capability for a trustworthy LLM, particularly an autoregressive LLM. While LLMs can identify error in user input, they exhibit a systematic 'Self-Correction Blind Spot' - failing to correct identical error in their own outputs. To systematically study this phenomenon, we introduce Self-Correction Bench, a systematic framework to measure this phenomenon through controlled error injection at three complexity levels. Testing 14 models, we find an average 64.5% blind spot rate. We find multiple evidences that this limitation relates to training data composition: human training demonstrations predominantly show error-free responses rather than error-correction sequences, unlike RL-trained models that learn error correction through outcome feedback. Remarkably, simply appending "Wait" reduces blind spots by 89.3%, suggesting that the capability exists but requires activation. Our work highlights a critical limitation in current LLMs and offers potential avenues for improving their reliability and trustworthiness.
PDF53July 4, 2025