Self-Correction Bench: Aufdeckung und Behebung des Selbstkorrektur-Blindspots in LLMs

papers.abstract

Obwohl große Sprachmodelle (LLMs) transformativ geworden sind, machen sie immer noch Fehler und können unproduktive Argumentationspfade verfolgen. Selbstkorrektur ist eine wichtige Fähigkeit für ein vertrauenswürdiges LLM, insbesondere für ein autoregressives LLM. Während LLMs Fehler in Benutzereingaben erkennen können, zeigen sie einen systematischen „Selbstkorrektur-Blindspot“ – sie korrigieren identische Fehler in ihren eigenen Ausgaben nicht. Um dieses Phänomen systematisch zu untersuchen, führen wir Self-Correction Bench ein, einen systematischen Rahmen, um dieses Phänomen durch kontrollierte Fehlerinjektion auf drei Komplexitätsstufen zu messen. Bei der Prüfung von 14 Modellen finden wir eine durchschnittliche Blindspot-Rate von 64,5 %. Wir finden mehrere Hinweise darauf, dass diese Einschränkung mit der Zusammensetzung der Trainingsdaten zusammenhängt: menschliche Trainingsdemonstrationen zeigen überwiegend fehlerfreie Antworten anstatt Fehlerkorrektursequenzen, im Gegensatz zu RL-trainierten Modellen, die Fehlerkorrektur durch Ergebnisrückmeldungen lernen. Bemerkenswerterweise reduziert das einfache Anhängen von „Warte“ die Blindspots um 89,3 %, was darauf hindeutet, dass die Fähigkeit vorhanden ist, aber aktiviert werden muss. Unsere Arbeit beleuchtet eine kritische Einschränkung in aktuellen LLMs und bietet potenzielle Wege zur Verbesserung ihrer Zuverlässigkeit und Vertrauenswürdigkeit.

English

Although large language models (LLMs) have become transformative, they still make mistakes and can explore unproductive reasoning paths. Self-correction is an important capability for a trustworthy LLM, particularly an autoregressive LLM. While LLMs can identify error in user input, they exhibit a systematic 'Self-Correction Blind Spot' - failing to correct identical error in their own outputs. To systematically study this phenomenon, we introduce Self-Correction Bench, a systematic framework to measure this phenomenon through controlled error injection at three complexity levels. Testing 14 models, we find an average 64.5% blind spot rate. We find multiple evidences that this limitation relates to training data composition: human training demonstrations predominantly show error-free responses rather than error-correction sequences, unlike RL-trained models that learn error correction through outcome feedback. Remarkably, simply appending "Wait" reduces blind spots by 89.3%, suggesting that the capability exists but requires activation. Our work highlights a critical limitation in current LLMs and offers potential avenues for improving their reliability and trustworthiness.

Self-Correction Bench: Aufdeckung und Behebung des Selbstkorrektur-Blindspots in LLMs

Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs

papers.abstract

Support