Декодирование механизма критики в больших моделях рассуждений

Аннотация

Большие модели рассуждений (Large Reasoning Models, LRMs) демонстрируют механизмы возврата (backtracking) и самопроверки, позволяющие им пересматривать промежуточные шаги и приходить к правильным решениям, что обеспечивает высокую производительность на сложных логических бенчмарках. Мы предполагаем, что такое поведение полезно только в том случае, если модель обладает достаточно сильной способностью к «критике» для обнаружения собственных ошибок. В данной работе мы систематически исследуем, как современные LRM восстанавливаются после ошибок, внося арифметические ошибки в их промежуточные шаги рассуждений. Примечательно, что мы обнаружили своеобразный, но важный феномен: несмотря на распространение ошибки по всей цепочке рассуждений (Chain-of-Thought, CoT) без какой-либо вербализованной коррекции, модель всё же приходит к правильному окончательному ответу после завершения процесса мышления. Это восстановление подразумевает существование внутреннего механизма, помогающего модели обнаруживать ошибки и запускать самокоррекцию, который мы называем скрытой способностью к критике (hidden critique ability). Основываясь на анализе пространства признаков, мы идентифицируем хорошо интерпретируемый вектор критики, представляющий это поведение. Обширные эксперименты на моделях различных масштабов и семейств демонстрируют, что управление латентными представлениями с помощью этого вектора улучшает способность модели к обнаружению ошибок и повышает производительность масштабирования во время тестирования (test-time scaling) без дополнительных затрат на обучение. Наши результаты дают ценное понимание критического поведения LRM, указывая на перспективное направление для контроля и улучшения их механизма самопроверки. Наш код доступен по адресу: https://github.com/mail-research/lrm-critique-vectors.

English

Large Reasoning Models (LRMs) exhibit backtracking and self-verification mechanisms that enable them to revise intermediate steps and reach correct solutions, yielding strong performance on complex logical benchmarks. We hypothesize that such behaviors are beneficial only when the model has sufficiently strong ``critique'' ability to detect its own mistakes. This work systematically investigates how current LRMs recover from errors by inserting arithmetic mistakes in their intermediate reasoning steps. Notably, we discover a peculiar yet important phenomenon: despite the error propagating throughout the entire chain-of-thought (CoT) without any verbalized correction, the model still reaches the correct final answer after the thinking process finishes. This recovery implies the existence of an internal mechanism helping the model to detect errors and trigger self-correction, which we refer to as the hidden critique ability. Building on feature space analysis, we identify a highly interpretable critique vector representing this behavior. Extensive experiments across multiple model scales and families demonstrate that steering latent representations with this vector improves the model's error detection capability and enhances the performance of test-time scaling at no extra training cost. Our findings provide a valuable understanding of LRMs' critique behavior, suggesting a promising direction to control and improve their self-verification mechanism. Our code is available at: https://github.com/mail-research/lrm-critique-vectors.