Décodage du mécanisme de critique dans les grands modèles de raisonnement

Résumé

Les Modèles de Raisonnement de Grande Taille (LRMs) présentent des mécanismes de retour en arrière et d'auto-vérification qui leur permettent de réviser les étapes intermédiaires et d'atteindre des solutions correctes, offrant ainsi des performances élevées sur des benchmarks logiques complexes. Nous formulons l'hypothèse que de tels comportements ne sont bénéfiques que lorsque le modèle possède une capacité de « critique » suffisamment forte pour détecter ses propres erreurs. Ce travail examine systématiquement comment les LRMs actuels se remettent d'erreurs en insérant des erreurs arithmétiques dans leurs étapes de raisonnement intermédiaires. Notamment, nous découvrons un phénomène particulier mais important : malgré la propagation de l'erreur dans toute la chaîne de pensée (CoT) sans aucune correction verbalisée, le modèle parvient néanmoins à la réponse finale correcte après la fin du processus de réflexion. Ce rétablissement implique l'existence d'un mécanisme interne qui aide le modèle à détecter les erreurs et à déclencher une autocorrection, ce que nous appelons la capacité de critique cachée. En nous appuyant sur une analyse de l'espace des caractéristiques, nous identifions un vecteur de critique hautement interprétable représentant ce comportement. Des expériences approfondies menées sur plusieurs échelles et familles de modèles démontrent qu'orienter les représentations latentes avec ce vecteur améliore la capacité de détection d'erreurs du modèle et renforce les performances du passage à l'échelle au moment du test, sans coût d'entraînement supplémentaire. Nos résultats offrent une compréhension précieuse du comportement de critique des LRMs, suggérant une direction prometteuse pour contrôler et améliorer leur mécanisme d'auto-vérification. Notre code est disponible à l'adresse : https://github.com/mail-research/lrm-critique-vectors.

English

Large Reasoning Models (LRMs) exhibit backtracking and self-verification mechanisms that enable them to revise intermediate steps and reach correct solutions, yielding strong performance on complex logical benchmarks. We hypothesize that such behaviors are beneficial only when the model has sufficiently strong ``critique'' ability to detect its own mistakes. This work systematically investigates how current LRMs recover from errors by inserting arithmetic mistakes in their intermediate reasoning steps. Notably, we discover a peculiar yet important phenomenon: despite the error propagating throughout the entire chain-of-thought (CoT) without any verbalized correction, the model still reaches the correct final answer after the thinking process finishes. This recovery implies the existence of an internal mechanism helping the model to detect errors and trigger self-correction, which we refer to as the hidden critique ability. Building on feature space analysis, we identify a highly interpretable critique vector representing this behavior. Extensive experiments across multiple model scales and families demonstrate that steering latent representations with this vector improves the model's error detection capability and enhances the performance of test-time scaling at no extra training cost. Our findings provide a valuable understanding of LRMs' critique behavior, suggesting a promising direction to control and improve their self-verification mechanism. Our code is available at: https://github.com/mail-research/lrm-critique-vectors.