Benchmark d'auto-correction : Révéler et traiter le point aveugle de l'auto-correction dans les modèles de langage de grande taille

papers.abstract

Bien que les grands modèles de langage (LLM) soient devenus transformateurs, ils commettent encore des erreurs et peuvent explorer des raisonnements improductifs. L'auto-correction est une capacité essentielle pour un LLM fiable, en particulier un LLM autorégressif. Si les LLM peuvent identifier les erreurs dans les entrées utilisateur, ils présentent un "angle mort d'auto-correction" systématique - échouant à corriger des erreurs identiques dans leurs propres sorties. Pour étudier systématiquement ce phénomène, nous introduisons Self-Correction Bench, un cadre systématique pour mesurer ce phénomène via l'injection contrôlée d'erreurs à trois niveaux de complexité. En testant 14 modèles, nous observons un taux moyen d'angle mort de 64,5%. Nous trouvons plusieurs preuves que cette limitation est liée à la composition des données d'entraînement : les démonstrations humaines montrent principalement des réponses sans erreur plutôt que des séquences de correction, contrairement aux modèles entraînés par RL qui apprennent la correction via un retour sur les résultats. Fait remarquable, l'ajout simple de "Attendez" réduit les angles morts de 89,3%, suggérant que la capacité existe mais nécessite une activation. Notre travail met en lumière une limitation critique des LLM actuels et propose des pistes potentielles pour améliorer leur fiabilité et leur crédibilité.

English

Although large language models (LLMs) have become transformative, they still make mistakes and can explore unproductive reasoning paths. Self-correction is an important capability for a trustworthy LLM, particularly an autoregressive LLM. While LLMs can identify error in user input, they exhibit a systematic 'Self-Correction Blind Spot' - failing to correct identical error in their own outputs. To systematically study this phenomenon, we introduce Self-Correction Bench, a systematic framework to measure this phenomenon through controlled error injection at three complexity levels. Testing 14 models, we find an average 64.5% blind spot rate. We find multiple evidences that this limitation relates to training data composition: human training demonstrations predominantly show error-free responses rather than error-correction sequences, unlike RL-trained models that learn error correction through outcome feedback. Remarkably, simply appending "Wait" reduces blind spots by 89.3%, suggesting that the capability exists but requires activation. Our work highlights a critical limitation in current LLMs and offers potential avenues for improving their reliability and trustworthiness.

Benchmark d'auto-correction : Révéler et traiter le point aveugle de l'auto-correction dans les modèles de langage de grande taille

Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs

papers.abstract

Support