Self-Correction Bench: Rivelare e Affrontare il Punto Cieco dell'Auto-Correzione nei Modelli Linguistici di Grande Dimensione (LLM)
Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs
July 3, 2025
Autori: Ken Tsui
cs.AI
Abstract
Sebbene i grandi modelli linguistici (LLM) siano diventati trasformativi, commettono ancora errori e possono esplorare percorsi di ragionamento improduttivi. L'autocorrezione è una capacità importante per un LLM affidabile, in particolare per un LLM autoregressivo. Mentre gli LLM possono identificare errori negli input degli utenti, mostrano un sistematico "punto cieco dell'autocorrezione" - non riescono a correggere errori identici nei propri output. Per studiare sistematicamente questo fenomeno, introduciamo Self-Correction Bench, un framework sistematico per misurare questo fenomeno attraverso l'iniezione controllata di errori a tre livelli di complessità. Testando 14 modelli, troviamo un tasso medio di punto cieco del 64,5%. Troviamo molteplici prove che questa limitazione è legata alla composizione dei dati di addestramento: le dimostrazioni di addestramento umano mostrano prevalentemente risposte prive di errori piuttosto che sequenze di correzione degli errori, a differenza dei modelli addestrati con RL che apprendono la correzione degli errori attraverso il feedback sui risultati. Sorprendentemente, semplicemente aggiungendo "Aspetta" si riducono i punti ciechi dell'89,3%, suggerendo che la capacità esiste ma richiede attivazione. Il nostro lavoro evidenzia una limitazione critica negli attuali LLM e offre potenziali vie per migliorarne l'affidabilità e la fiducia.
English
Although large language models (LLMs) have become transformative, they still
make mistakes and can explore unproductive reasoning paths. Self-correction is
an important capability for a trustworthy LLM, particularly an autoregressive
LLM. While LLMs can identify error in user input, they exhibit a systematic
'Self-Correction Blind Spot' - failing to correct identical error in their own
outputs. To systematically study this phenomenon, we introduce Self-Correction
Bench, a systematic framework to measure this phenomenon through controlled
error injection at three complexity levels. Testing 14 models, we find an
average 64.5% blind spot rate. We find multiple evidences that this limitation
relates to training data composition: human training demonstrations
predominantly show error-free responses rather than error-correction sequences,
unlike RL-trained models that learn error correction through outcome feedback.
Remarkably, simply appending "Wait" reduces blind spots by 89.3%, suggesting
that the capability exists but requires activation. Our work highlights a
critical limitation in current LLMs and offers potential avenues for improving
their reliability and trustworthiness.