Ein Rätsel der künstlichen Vernunft: Untersuchung der Produktions-Bewertungs-Lücke in großen Reasoning-Modellen

Zusammenfassung

Studien zum menschlichen Denken haben gezeigt, dass Menschen typischerweise besser darin sind, Argumentationen zu bewerten, als sie selbstständig zu entwickeln. Im Gegensatz dazu werden große Reasoning-Modelle (LRMs) darauf trainiert, lange Argumentationsketten zu produzieren, um komplexe Probleme zu lösen. Wie gut sind LRMs jedoch darin, Argumentationen zu bewerten? Wir untersuchen dies anhand des Valid-Answer-Invalid-Reasoning (VAIR)-Datensatzes: Matheaufgaben und Lösungen mit trivialen Argumentationsfehlern, aber korrekten Antworten, die darauf ausgelegt sind, die Bewertung von Argumentationen von der Störvariable der Argumentationsproduktion zu isolieren. Im Gegensatz zu Menschen, die – wie wir feststellen – beim Benoten solcher Aufgaben nur 6 % schlechter abschneiden als beim Lösen, stellen wir bei LRMs eine erhebliche Produktions-Bewertungs-Lücke fest: Spitzenmodelle erzielen bei der Bewertung von VAIR-Lösungen Werte von nur 48 %, obwohl sie bei der Lösungsproduktion nahezu perfekt sind. Woher dieses Rätsel? Durch eine Chain-of-Thought (CoT)-Analyse finden wir Hinweise auf eine Antwortbestätigungsverzerrung: LRMs erzeugen oft eine Antwort und prüfen dann auf die korrekte Antwort, anstatt jeden Schritt sorgfältig zu verifizieren, und erfinden Rationalisierungen, selbst wenn sie anomale Argumentationen bemerken. Lineare Sonden bestätigen dies und zeigen, dass LRM-Aktivierungen zwar eine gewisse Repräsentation gültiger Argumentationen kodieren, aber VAIR-Lösungen nicht robust als ungültig repräsentieren. Kausales Patching der Repräsentationen der finalen Antwort führt dazu, dass die Urteile und Aktivierungen der LRMs umschlagen, was zeigt, dass die Antwortgültigkeit für die Bestätigungsverzerrungen der Modelle verantwortlich ist. Diese Ergebnisse weisen auf eine erhebliche Einschränkung dominanter Ansätze im Reasoning-Training hin, die LRMs dazu anreizen, Argumentationen zu produzieren und in Richtung korrekter Antworten zu bestätigen, nicht jedoch, die zugrundeliegenden Argumentationen robust zu bewerten.

English

Studies of human reasoning have shown that people are typically stronger at evaluating reasoning than producing it from scratch. In contrast, large reasoning models (LRMs) are trained to excel at producing long chains of reasoning to solve complex problems. How then do LRMs perform at evaluating reasons? We investigate this with the Valid-Answer-Invalid-Reasoning (VAIR) dataset: math problems and solutions with trivial reasoning flaws but valid answers, designed to isolate reasoning evaluation from the confound of reasoning production. Unlike humans, who we find are only 6% worse at grading than solving such problems, we find a substantial production-evaluation gap in LRMs: frontier models score as low as 48% when evaluating VAIR solutions, despite near-perfect solution production. Why this enigma? Through chain-of-thought (CoT) analysis, we find evidence of an answer confirmation bias: LRMs often produce then check for the correct answer instead of carefully verifying each step, fabricating rationalizations even when noticing anomalous reasoning. Linear probes corroborate this, showing that while LRM activations encode some representation of valid reasoning, they fail to robustly represent VAIR solutions as invalid. Causal patching of the final answer's representations causes LRM verdicts and activations to flip, demonstrating that answer validity is responsible for models' confirmation biases. These findings indicate an outstanding limitation in dominant approaches to reasoning training, which incentivize LRMs to produce and confirm reasoning towards correct answers, but not to robustly evaluate the underlying reasons.