Self-Correction Bench: Rivelare e Affrontare il Punto Cieco dell'Auto-Correzione nei Modelli Linguistici di Grande Dimensione (LLM)

Abstract

Sebbene i grandi modelli linguistici (LLM) siano diventati trasformativi, commettono ancora errori e possono esplorare percorsi di ragionamento improduttivi. L'autocorrezione è una capacità importante per un LLM affidabile, in particolare per un LLM autoregressivo. Mentre gli LLM possono identificare errori negli input degli utenti, mostrano un sistematico "punto cieco dell'autocorrezione" - non riescono a correggere errori identici nei propri output. Per studiare sistematicamente questo fenomeno, introduciamo Self-Correction Bench, un framework sistematico per misurare questo fenomeno attraverso l'iniezione controllata di errori a tre livelli di complessità. Testando 14 modelli, troviamo un tasso medio di punto cieco del 64,5%. Troviamo molteplici prove che questa limitazione è legata alla composizione dei dati di addestramento: le dimostrazioni di addestramento umano mostrano prevalentemente risposte prive di errori piuttosto che sequenze di correzione degli errori, a differenza dei modelli addestrati con RL che apprendono la correzione degli errori attraverso il feedback sui risultati. Sorprendentemente, semplicemente aggiungendo "Aspetta" si riducono i punti ciechi dell'89,3%, suggerendo che la capacità esiste ma richiede attivazione. Il nostro lavoro evidenzia una limitazione critica negli attuali LLM e offre potenziali vie per migliorarne l'affidabilità e la fiducia.

English

Although large language models (LLMs) have become transformative, they still make mistakes and can explore unproductive reasoning paths. Self-correction is an important capability for a trustworthy LLM, particularly an autoregressive LLM. While LLMs can identify error in user input, they exhibit a systematic 'Self-Correction Blind Spot' - failing to correct identical error in their own outputs. To systematically study this phenomenon, we introduce Self-Correction Bench, a systematic framework to measure this phenomenon through controlled error injection at three complexity levels. Testing 14 models, we find an average 64.5% blind spot rate. We find multiple evidences that this limitation relates to training data composition: human training demonstrations predominantly show error-free responses rather than error-correction sequences, unlike RL-trained models that learn error correction through outcome feedback. Remarkably, simply appending "Wait" reduces blind spots by 89.3%, suggesting that the capability exists but requires activation. Our work highlights a critical limitation in current LLMs and offers potential avenues for improving their reliability and trustworthiness.

Self-Correction Bench: Rivelare e Affrontare il Punto Cieco dell'Auto-Correzione nei Modelli Linguistici di Grande Dimensione (LLM)

Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs

Abstract

Support