Загадка искусственного разума: исследование разрыва между генерацией и оценкой в больших моделях рассуждения

Аннотация

Исследования человеческого мышления показали, что люди, как правило, лучше оценивают рассуждения, чем создают их с нуля. Напротив, большие модели рассуждений (LRM) обучаются превосходно порождать длинные цепочки рассуждений для решения сложных задач. Как же LRM справляются с оценкой рассуждений? Мы исследуем этот вопрос на наборе данных VAIR (Valid-Answer-Invalid-Reasoning), содержащем математические задачи и решения с тривиальными ошибками в рассуждениях, но верными ответами; этот набор данных предназначен для того, чтобы изолировать оценку рассуждений от смешивающего фактора их порождения. В отличие от людей, которые, как мы обнаружили, лишь на 6% хуже оценивают такие задачи, чем решают их, мы наблюдаем существенный разрыв между порождением и оценкой у LRM: передовые модели набирают лишь 48% правильных ответов при оценке решений VAIR, несмотря на почти идеальное порождение решений. В чем причина этой загадки? Анализ цепочек мыслей (CoT) показывает признаки предвзятости подтверждения ответа: LRM часто сначала порождают ответ, а затем проверяют его правильность вместо тщательной верификации каждого шага, фабрикуя рационализации даже при обнаружении аномальных рассуждений. Линейные зонды подтверждают это, показывая, что, хотя активации LRM кодируют некоторые представления валидных рассуждений, они неспособны надежно представлять решения VAIR как невалидные. Каузальное патчинг представлений финального ответа приводит к переключению вердиктов и активаций модели, демонстрируя, что валидность ответа ответственна за предвзятость подтверждения моделей. Эти результаты указывают на фундаментальное ограничение доминирующих подходов к обучению рассуждениям, которые стимулируют LRM порождать и подтверждать рассуждения, ведущие к правильным ответам, но не обеспечивают надежную оценку лежащих в основе рассуждений.

English

Studies of human reasoning have shown that people are typically stronger at evaluating reasoning than producing it from scratch. In contrast, large reasoning models (LRMs) are trained to excel at producing long chains of reasoning to solve complex problems. How then do LRMs perform at evaluating reasons? We investigate this with the Valid-Answer-Invalid-Reasoning (VAIR) dataset: math problems and solutions with trivial reasoning flaws but valid answers, designed to isolate reasoning evaluation from the confound of reasoning production. Unlike humans, who we find are only 6% worse at grading than solving such problems, we find a substantial production-evaluation gap in LRMs: frontier models score as low as 48% when evaluating VAIR solutions, despite near-perfect solution production. Why this enigma? Through chain-of-thought (CoT) analysis, we find evidence of an answer confirmation bias: LRMs often produce then check for the correct answer instead of carefully verifying each step, fabricating rationalizations even when noticing anomalous reasoning. Linear probes corroborate this, showing that while LRM activations encode some representation of valid reasoning, they fail to robustly represent VAIR solutions as invalid. Causal patching of the final answer's representations causes LRM verdicts and activations to flip, demonstrating that answer validity is responsible for models' confirmation biases. These findings indicate an outstanding limitation in dominant approaches to reasoning training, which incentivize LRMs to produce and confirm reasoning towards correct answers, but not to robustly evaluate the underlying reasons.