Um Enigma da Razão Artificial: Investigando a Lacuna entre Produção e Avaliação em Grandes Modelos de Raciocínio

Resumo

Estudos sobre o raciocínio humano demonstraram que as pessoas são tipicamente mais competentes em avaliar raciocínios do que em produzi-los a partir do zero. Em contraste, os grandes modelos de raciocínio (LRMs) são treinados para se destacarem na produção de longas cadeias de raciocínio para resolver problemas complexos. Como então os LRMs se saem ao avaliar os raciocínios? Investigamos isso com o conjunto de dados Valid-Answer-Invalid-Reasoning (VAIR): problemas e soluções matemáticas com falhas de raciocínio triviais, mas respostas válidas, projetados para isolar a avaliação do raciocínio do confundimento da produção do raciocínio. Ao contrário dos humanos, que descobrimos serem apenas 6% piores na correção do que na resolução desses problemas, encontramos uma lacuna substancial entre produção e avaliação nos LRMs: modelos de fronteira obtêm pontuações tão baixas quanto 48% ao avaliar as soluções do VAIR, apesar de uma produção de soluções quase perfeita. Por que esse enigma? Através da análise da cadeia de pensamento (CoT), encontramos evidências de um viés de confirmação da resposta: os LRMs frequentemente produzem e depois verificam a resposta correta, em vez de verificar cuidadosamente cada etapa, fabricando racionalizações mesmo quando notam raciocínios anômalos. Sondas lineares corroboram isso, mostrando que, embora as ativações dos LRMs codifiquem alguma representação de raciocínio válido, elas falham em representar robustamente as soluções do VAIR como inválidas. A correção causal (causal patching) das representações da resposta final faz com que os veredictos e as ativações dos modelos se invertam, demonstrando que a validade da resposta é responsável pelos vieses de confirmação dos modelos. Essas descobertas indicam uma limitação significativa nas abordagens dominantes ao treinamento de raciocínio, que incentivam os LRMs a produzir e confirmar raciocínios em direção a respostas corretas, mas não a avaliar robustamente os raciocínios subjacentes.

English

Studies of human reasoning have shown that people are typically stronger at evaluating reasoning than producing it from scratch. In contrast, large reasoning models (LRMs) are trained to excel at producing long chains of reasoning to solve complex problems. How then do LRMs perform at evaluating reasons? We investigate this with the Valid-Answer-Invalid-Reasoning (VAIR) dataset: math problems and solutions with trivial reasoning flaws but valid answers, designed to isolate reasoning evaluation from the confound of reasoning production. Unlike humans, who we find are only 6% worse at grading than solving such problems, we find a substantial production-evaluation gap in LRMs: frontier models score as low as 48% when evaluating VAIR solutions, despite near-perfect solution production. Why this enigma? Through chain-of-thought (CoT) analysis, we find evidence of an answer confirmation bias: LRMs often produce then check for the correct answer instead of carefully verifying each step, fabricating rationalizations even when noticing anomalous reasoning. Linear probes corroborate this, showing that while LRM activations encode some representation of valid reasoning, they fail to robustly represent VAIR solutions as invalid. Causal patching of the final answer's representations causes LRM verdicts and activations to flip, demonstrating that answer validity is responsible for models' confirmation biases. These findings indicate an outstanding limitation in dominant approaches to reasoning training, which incentivize LRMs to produce and confirm reasoning towards correct answers, but not to robustly evaluate the underlying reasons.