Banco de Auto-Correção: Revelando e Abordando o Ponto Cego de Auto-Correção em LLMs

Resumo

Embora os modelos de linguagem de grande escala (LLMs) tenham se tornado transformadores, eles ainda cometem erros e podem explorar caminhos de raciocínio improdutivos. A autocorreção é uma capacidade importante para um LLM confiável, especialmente um LLM autoregressivo. Embora os LLMs possam identificar erros na entrada do usuário, eles exibem um "Ponto Cego de Autocorreção" sistemático - falhando em corrigir erros idênticos em suas próprias saídas. Para estudar sistematicamente esse fenômeno, introduzimos o Self-Correction Bench, uma estrutura sistemática para medir esse fenômeno por meio da injeção controlada de erros em três níveis de complexidade. Testando 14 modelos, encontramos uma taxa média de ponto cego de 64,5%. Encontramos múltiplas evidências de que essa limitação está relacionada à composição dos dados de treinamento: as demonstrações de treinamento humano predominantemente mostram respostas livres de erros, em vez de sequências de correção de erros, ao contrário dos modelos treinados com RL que aprendem a correção de erros por meio de feedback de resultados. Notavelmente, simplesmente acrescentar "Espere" reduz os pontos cegos em 89,3%, sugerindo que a capacidade existe, mas requer ativação. Nosso trabalho destaca uma limitação crítica nos LLMs atuais e oferece possíveis caminhos para melhorar sua confiabilidade e confiança.

English

Although large language models (LLMs) have become transformative, they still make mistakes and can explore unproductive reasoning paths. Self-correction is an important capability for a trustworthy LLM, particularly an autoregressive LLM. While LLMs can identify error in user input, they exhibit a systematic 'Self-Correction Blind Spot' - failing to correct identical error in their own outputs. To systematically study this phenomenon, we introduce Self-Correction Bench, a systematic framework to measure this phenomenon through controlled error injection at three complexity levels. Testing 14 models, we find an average 64.5% blind spot rate. We find multiple evidences that this limitation relates to training data composition: human training demonstrations predominantly show error-free responses rather than error-correction sequences, unlike RL-trained models that learn error correction through outcome feedback. Remarkably, simply appending "Wait" reduces blind spots by 89.3%, suggesting that the capability exists but requires activation. Our work highlights a critical limitation in current LLMs and offers potential avenues for improving their reliability and trustworthiness.

Banco de Auto-Correção: Revelando e Abordando o Ponto Cego de Auto-Correção em LLMs

Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs

Resumo

Support