Banco de Auto-Correção: Revelando e Abordando o Ponto Cego de Auto-Correção em LLMs
Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs
July 3, 2025
Autores: Ken Tsui
cs.AI
Resumo
Embora os modelos de linguagem de grande escala (LLMs) tenham se tornado transformadores, eles ainda cometem erros e podem explorar caminhos de raciocínio improdutivos. A autocorreção é uma capacidade importante para um LLM confiável, especialmente um LLM autoregressivo. Embora os LLMs possam identificar erros na entrada do usuário, eles exibem um "Ponto Cego de Autocorreção" sistemático - falhando em corrigir erros idênticos em suas próprias saídas. Para estudar sistematicamente esse fenômeno, introduzimos o Self-Correction Bench, uma estrutura sistemática para medir esse fenômeno por meio da injeção controlada de erros em três níveis de complexidade. Testando 14 modelos, encontramos uma taxa média de ponto cego de 64,5%. Encontramos múltiplas evidências de que essa limitação está relacionada à composição dos dados de treinamento: as demonstrações de treinamento humano predominantemente mostram respostas livres de erros, em vez de sequências de correção de erros, ao contrário dos modelos treinados com RL que aprendem a correção de erros por meio de feedback de resultados. Notavelmente, simplesmente acrescentar "Espere" reduz os pontos cegos em 89,3%, sugerindo que a capacidade existe, mas requer ativação. Nosso trabalho destaca uma limitação crítica nos LLMs atuais e oferece possíveis caminhos para melhorar sua confiabilidade e confiança.
English
Although large language models (LLMs) have become transformative, they still
make mistakes and can explore unproductive reasoning paths. Self-correction is
an important capability for a trustworthy LLM, particularly an autoregressive
LLM. While LLMs can identify error in user input, they exhibit a systematic
'Self-Correction Blind Spot' - failing to correct identical error in their own
outputs. To systematically study this phenomenon, we introduce Self-Correction
Bench, a systematic framework to measure this phenomenon through controlled
error injection at three complexity levels. Testing 14 models, we find an
average 64.5% blind spot rate. We find multiple evidences that this limitation
relates to training data composition: human training demonstrations
predominantly show error-free responses rather than error-correction sequences,
unlike RL-trained models that learn error correction through outcome feedback.
Remarkably, simply appending "Wait" reduces blind spots by 89.3%, suggesting
that the capability exists but requires activation. Our work highlights a
critical limitation in current LLMs and offers potential avenues for improving
their reliability and trustworthiness.