Une énigme de la raison artificielle : Enquête sur le fossé production-évaluation dans les grands modèles de raisonnement

Résumé

Des études sur le raisonnement humain ont montré que les individus sont généralement plus performants pour évaluer des raisonnements que pour en produire de toutes pièces. En revanche, les grands modèles de raisonnement (LRM) sont entraînés à exceller dans la production de longues chaînes de raisonnement pour résoudre des problèmes complexes. Comment les LRM se comportent-ils alors dans l'évaluation des raisonnements ? Nous étudions cette question à l'aide de l'ensemble de données VAIR (Valid-Answer-Invalid-Reasoning) : des problèmes et solutions mathématiques comportant des défauts de raisonnement triviaux mais des réponses valides, conçus pour isoler l'évaluation du raisonnement de la confusion avec la production de raisonnement. Contrairement aux humains, dont nous constatons qu'ils ne sont que 6 % moins performants pour noter que pour résoudre de tels problèmes, nous observons un écart substantiel entre production et évaluation chez les LRM : les modèles de pointe obtiennent à peine 48 % lors de l'évaluation des solutions VAIR, malgré une production quasi parfaite des solutions. Pourquoi cette énigme ? Grâce à une analyse de la chaîne de pensée (CoT), nous trouvons des preuves d'un biais de confirmation de la réponse : les LRM produisent souvent une solution, puis vérifient la présence de la réponse correcte au lieu d'examiner soigneusement chaque étape, en fabriquant des rationalisations même lorsqu'ils remarquent un raisonnement anormal. Des sondes linéaires corroborent cela, montrant que bien que les activations des LRM encodent une certaine représentation d'un raisonnement valide, elles échouent à représenter robustement les solutions VAIR comme invalides. Le patching causal des représentations de la réponse finale entraîne un basculement des verdicts et des activations des LRM, démontrant que la validité de la réponse est responsable des biais de confirmation des modèles. Ces résultats mettent en évidence une limitation majeure des approches dominantes d'entraînement au raisonnement, qui incitent les LRM à produire et confirmer des raisonnements menant à des réponses correctes, mais pas à évaluer robustement les raisonnements sous-jacents.

English

Studies of human reasoning have shown that people are typically stronger at evaluating reasoning than producing it from scratch. In contrast, large reasoning models (LRMs) are trained to excel at producing long chains of reasoning to solve complex problems. How then do LRMs perform at evaluating reasons? We investigate this with the Valid-Answer-Invalid-Reasoning (VAIR) dataset: math problems and solutions with trivial reasoning flaws but valid answers, designed to isolate reasoning evaluation from the confound of reasoning production. Unlike humans, who we find are only 6% worse at grading than solving such problems, we find a substantial production-evaluation gap in LRMs: frontier models score as low as 48% when evaluating VAIR solutions, despite near-perfect solution production. Why this enigma? Through chain-of-thought (CoT) analysis, we find evidence of an answer confirmation bias: LRMs often produce then check for the correct answer instead of carefully verifying each step, fabricating rationalizations even when noticing anomalous reasoning. Linear probes corroborate this, showing that while LRM activations encode some representation of valid reasoning, they fail to robustly represent VAIR solutions as invalid. Causal patching of the final answer's representations causes LRM verdicts and activations to flip, demonstrating that answer validity is responsible for models' confirmation biases. These findings indicate an outstanding limitation in dominant approaches to reasoning training, which incentivize LRMs to produce and confirm reasoning towards correct answers, but not to robustly evaluate the underlying reasons.