Un enigma de la razón artificial: Investigando la brecha entre producción y evaluación en modelos de razonamiento a gran escala

Resumen

Los estudios sobre el razonamiento humano han demostrado que las personas suelen ser mejores evaluando el razonamiento que produciéndolo desde cero. Por el contrario, los modelos de razonamiento grandes (LRMs) se entrenan para sobresalir en la producción de largas cadenas de razonamiento para resolver problemas complejos. ¿Cómo se desempeñan entonces los LRMs en la evaluación de razones? Investigamos esto con el conjunto de datos de Respuesta Válida-Razonamiento Inválido (VAIR): problemas y soluciones matemáticas con fallos de razonamiento triviales pero respuestas válidas, diseñados para aislar la evaluación del razonamiento del factor de confusión de la producción del razonamiento. A diferencia de los humanos, que según encontramos son solo un 6% peores al calificar que al resolver dichos problemas, observamos una brecha sustancial entre producción y evaluación en los LRMs: los modelos de frontera obtienen puntuaciones tan bajas como el 48% al evaluar soluciones VAIR, a pesar de una producción de soluciones casi perfecta. ¿Por qué este enigma? Mediante el análisis de la cadena de pensamiento (CoT), encontramos evidencia de un sesgo de confirmación de respuesta: los LRMs a menudo producen y luego verifican la respuesta correcta en lugar de verificar cuidadosamente cada paso, fabricando racionalizaciones incluso cuando notan un razonamiento anómalo. Las sondas lineales corroboran esto, mostrando que, si bien las activaciones de los LRMs codifican cierta representación del razonamiento válido, no logran representar de manera robusta las soluciones VAIR como inválidas. El parcheo causal de las representaciones de la respuesta final provoca que los veredictos y las activaciones de los LRMs se inviertan, demostrando que la validez de la respuesta es responsable de los sesgos de confirmación de los modelos. Estos hallazgos indican una limitación destacada en los enfoques dominantes del entrenamiento en razonamiento, que incentivan a los LRMs a producir y confirmar razonamientos hacia respuestas correctas, pero no a evaluar de manera robusta las razones subyacentes.

English

Studies of human reasoning have shown that people are typically stronger at evaluating reasoning than producing it from scratch. In contrast, large reasoning models (LRMs) are trained to excel at producing long chains of reasoning to solve complex problems. How then do LRMs perform at evaluating reasons? We investigate this with the Valid-Answer-Invalid-Reasoning (VAIR) dataset: math problems and solutions with trivial reasoning flaws but valid answers, designed to isolate reasoning evaluation from the confound of reasoning production. Unlike humans, who we find are only 6% worse at grading than solving such problems, we find a substantial production-evaluation gap in LRMs: frontier models score as low as 48% when evaluating VAIR solutions, despite near-perfect solution production. Why this enigma? Through chain-of-thought (CoT) analysis, we find evidence of an answer confirmation bias: LRMs often produce then check for the correct answer instead of carefully verifying each step, fabricating rationalizations even when noticing anomalous reasoning. Linear probes corroborate this, showing that while LRM activations encode some representation of valid reasoning, they fail to robustly represent VAIR solutions as invalid. Causal patching of the final answer's representations causes LRM verdicts and activations to flip, demonstrating that answer validity is responsible for models' confirmation biases. These findings indicate an outstanding limitation in dominant approaches to reasoning training, which incentivize LRMs to produce and confirm reasoning towards correct answers, but not to robustly evaluate the underlying reasons.