Een enigma van kunstmatig redeneren: onderzoek naar de productie-evaluatiekloof in grote redeneermodellen

Samenvatting

Studies naar menselijk redeneren hebben aangetoond dat mensen doorgaans beter zijn in het evalueren van redeneringen dan in het zelfstandig produceren ervan. Daarentegen worden grote redeneermodellen (large reasoning models, LRM's) getraind om uit te blinken in het produceren van lange redeneerketens om complexe problemen op te lossen. Hoe presteren LRM's dan bij het evalueren van redeneringen? We onderzoeken dit met de Valid-Answer-Invalid-Reasoning (VAIR)-dataset: wiskundige problemen en oplossingen met triviale redeneerfouten maar geldige antwoorden, ontworpen om redeneerevaluatie te isoleren van de verstorende factor van redeneerproductie. In tegenstelling tot mensen, bij wie we vinden dat ze slechts 6% slechter zijn in het beoordelen dan in het oplossen van dergelijke problemen, zien we een aanzienlijke productie-evaluatiekloof bij LRM's: geavanceerde modellen scoren maar liefst 48% bij het evalueren van VAIR-oplossingen, ondanks een bijna perfecte productie van oplossingen. Waarom dit raadsel? Door middel van keten-van-gedachten (chain-of-thought, CoT)-analyse vinden we bewijs van een antwoordbevestigingsbias: LRM's produceren vaak en controleren vervolgens op het juiste antwoord in plaats van elke stap zorgvuldig te verifiëren, en verzinnen rationalisaties, zelfs wanneer ze afwijkende redeneringen opmerken. Lineaire probes bevestigen dit en tonen aan dat, hoewel LRM-activaties enige representatie van geldige redeneringen coderen, ze er niet in slagen om VAIR-oplossingen robuust als ongeldig te representeren. Causaal patchen van de representaties van het uiteindelijke antwoord zorgt ervoor dat LRM-oordelen en -activaties omslaan, wat aantoont dat de validiteit van het antwoord verantwoordelijk is voor de bevestigingsbias van de modellen. Deze bevindingen wijzen op een opvallende beperking in de dominante benaderingen van redeneertraining, die LRM's stimuleren om redeneringen naar correcte antwoorden te produceren en te bevestigen, maar niet om de onderliggende redenen robuust te evalueren.

English

Studies of human reasoning have shown that people are typically stronger at evaluating reasoning than producing it from scratch. In contrast, large reasoning models (LRMs) are trained to excel at producing long chains of reasoning to solve complex problems. How then do LRMs perform at evaluating reasons? We investigate this with the Valid-Answer-Invalid-Reasoning (VAIR) dataset: math problems and solutions with trivial reasoning flaws but valid answers, designed to isolate reasoning evaluation from the confound of reasoning production. Unlike humans, who we find are only 6% worse at grading than solving such problems, we find a substantial production-evaluation gap in LRMs: frontier models score as low as 48% when evaluating VAIR solutions, despite near-perfect solution production. Why this enigma? Through chain-of-thought (CoT) analysis, we find evidence of an answer confirmation bias: LRMs often produce then check for the correct answer instead of carefully verifying each step, fabricating rationalizations even when noticing anomalous reasoning. Linear probes corroborate this, showing that while LRM activations encode some representation of valid reasoning, they fail to robustly represent VAIR solutions as invalid. Causal patching of the final answer's representations causes LRM verdicts and activations to flip, demonstrating that answer validity is responsible for models' confirmation biases. These findings indicate an outstanding limitation in dominant approaches to reasoning training, which incentivize LRMs to produce and confirm reasoning towards correct answers, but not to robustly evaluate the underlying reasons.