Descifrando el Mecanismo de Crítica en los Grandes Modelos de Razonamiento

Resumen

Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) presentan mecanismos de retroceso y autoverificación que les permiten revisar pasos intermedios y alcanzar soluciones correctas, lo que resulta en un sólido rendimiento en puntos de referencia lógicos complejos. Partimos de la hipótesis de que dichos comportamientos solo son beneficiosos cuando el modelo posee una capacidad de "crítica" suficientemente sólida para detectar sus propios errores. Este trabajo investiga sistemáticamente cómo los LRMs actuales se recuperan de errores al insertar fallos aritméticos en sus pasos de razonamiento intermedios. Notablemente, descubrimos un fenómeno peculiar pero importante: a pesar de que el error se propaga a lo largo de toda la cadena de pensamiento (CoT) sin ninguna corrección verbalizada, el modelo aún alcanza la respuesta final correcta una vez finalizado el proceso de pensamiento. Esta recuperación implica la existencia de un mecanismo interno que ayuda al modelo a detectar errores y desencadenar la autocorrección, al que denominamos capacidad crítica oculta. Basándonos en el análisis del espacio de características, identificamos un vector de crítica altamente interpretable que representa este comportamiento. Amplios experimentos en múltiples escalas y familias de modelos demuestran que dirigir las representaciones latentes con este vector mejora la capacidad de detección de errores del modelo y potencia el rendimiento del escalado en tiempo de prueba, sin costo adicional de entrenamiento. Nuestros hallazgos ofrecen una comprensión valiosa del comportamiento crítico de los LRMs, sugiriendo una dirección prometedora para controlar y mejorar su mecanismo de autoverificación. Nuestro código está disponible en: https://github.com/mail-research/lrm-critique-vectors.

English

Large Reasoning Models (LRMs) exhibit backtracking and self-verification mechanisms that enable them to revise intermediate steps and reach correct solutions, yielding strong performance on complex logical benchmarks. We hypothesize that such behaviors are beneficial only when the model has sufficiently strong ``critique'' ability to detect its own mistakes. This work systematically investigates how current LRMs recover from errors by inserting arithmetic mistakes in their intermediate reasoning steps. Notably, we discover a peculiar yet important phenomenon: despite the error propagating throughout the entire chain-of-thought (CoT) without any verbalized correction, the model still reaches the correct final answer after the thinking process finishes. This recovery implies the existence of an internal mechanism helping the model to detect errors and trigger self-correction, which we refer to as the hidden critique ability. Building on feature space analysis, we identify a highly interpretable critique vector representing this behavior. Extensive experiments across multiple model scales and families demonstrate that steering latent representations with this vector improves the model's error detection capability and enhances the performance of test-time scaling at no extra training cost. Our findings provide a valuable understanding of LRMs' critique behavior, suggesting a promising direction to control and improve their self-verification mechanism. Our code is available at: https://github.com/mail-research/lrm-critique-vectors.