ChatPaper.aiChatPaper

Self-Correction Bench: Het onthullen en aanpakken van het zelfcorrectie- blinde vlek in grote taalmodellen (LLMs)

Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs

July 3, 2025
Auteurs: Ken Tsui
cs.AI

Samenvatting

Hoewel grote taalmodellen (LLMs) transformerend zijn geworden, maken ze nog steeds fouten en kunnen ze onproductieve redeneerpaden verkennen. Zelfcorrectie is een belangrijke vaardigheid voor een betrouwbaar LLM, met name een autoregressief LLM. Hoewel LLMs fouten in gebruikersinvoer kunnen identificeren, vertonen ze een systematische 'Zelfcorrectie-Blindheid' - ze slagen er niet in identieke fouten in hun eigen uitvoer te corrigeren. Om dit fenomeen systematisch te bestuderen, introduceren we Self-Correction Bench, een systematisch raamwerk om dit fenomeen te meten door middel van gecontroleerde foutinjectie op drie complexiteitsniveaus. Na het testen van 14 modellen, vinden we een gemiddeld blindheidspercentage van 64,5%. We vinden meerdere aanwijzingen dat deze beperking verband houdt met de samenstelling van de trainingsdata: menselijke trainingsdemonstraties tonen voornamelijk foutloze reacties in plaats van foutcorrectie-sequenties, in tegenstelling tot RL-getrainde modellen die foutcorrectie leren door middel van uitkomstfeedback. Opmerkelijk is dat het simpelweg toevoegen van "Wacht" de blindheid met 89,3% vermindert, wat suggereert dat de capaciteit aanwezig is maar geactiveerd moet worden. Ons werk belicht een kritieke beperking in huidige LLMs en biedt mogelijke wegen om hun betrouwbaarheid en vertrouwen te verbeteren.
English
Although large language models (LLMs) have become transformative, they still make mistakes and can explore unproductive reasoning paths. Self-correction is an important capability for a trustworthy LLM, particularly an autoregressive LLM. While LLMs can identify error in user input, they exhibit a systematic 'Self-Correction Blind Spot' - failing to correct identical error in their own outputs. To systematically study this phenomenon, we introduce Self-Correction Bench, a systematic framework to measure this phenomenon through controlled error injection at three complexity levels. Testing 14 models, we find an average 64.5% blind spot rate. We find multiple evidences that this limitation relates to training data composition: human training demonstrations predominantly show error-free responses rather than error-correction sequences, unlike RL-trained models that learn error correction through outcome feedback. Remarkably, simply appending "Wait" reduces blind spots by 89.3%, suggesting that the capability exists but requires activation. Our work highlights a critical limitation in current LLMs and offers potential avenues for improving their reliability and trustworthiness.
PDF93July 4, 2025