Decodificando o mecanismo de crítica em grandes modelos de raciocínio

Resumo

Modelos de Raciocínio de Grande Escala (LRMs) exibem mecanismos de retrocesso e autoverificação que lhes permitem revisar etapas intermediárias e chegar a soluções corretas, resultando em desempenho robusto em benchmarks lógicos complexos. Hipotetizamos que tais comportamentos são benéficos apenas quando o modelo possui capacidade de “crítica” suficientemente forte para detectar seus próprios erros. Este trabalho investiga sistematicamente como os LRMs atuais se recuperam de erros ao inserir equívocos aritméticos em suas etapas intermediárias de raciocínio. Notavelmente, descobrimos um fenômeno peculiar, porém importante: apesar de o erro se propagar por toda a cadeia de pensamento (CoT) sem qualquer correção verbalizada, o modelo ainda chega à resposta final correta após o término do processo de raciocínio. Essa recuperação implica a existência de um mecanismo interno que ajuda o modelo a detectar erros e desencadear autocorreção, ao qual denominamos capacidade de crítica oculta. Com base na análise do espaço de características, identificamos um vetor de crítica altamente interpretável que representa esse comportamento. Experimentos extensos em múltiplas escalas e famílias de modelos demonstram que orientar representações latentes com esse vetor melhora a capacidade de detecção de erros do modelo e aprimora o desempenho do escalonamento em tempo de teste, sem custo adicional de treinamento. Nossos achados fornecem uma compreensão valiosa do comportamento de crítica dos LRMs, sugerindo uma direção promissora para controlar e melhorar seu mecanismo de autoverificação. Nosso código está disponível em: https://github.com/mail-research/lrm-critique-vectors.

English

Large Reasoning Models (LRMs) exhibit backtracking and self-verification mechanisms that enable them to revise intermediate steps and reach correct solutions, yielding strong performance on complex logical benchmarks. We hypothesize that such behaviors are beneficial only when the model has sufficiently strong ``critique'' ability to detect its own mistakes. This work systematically investigates how current LRMs recover from errors by inserting arithmetic mistakes in their intermediate reasoning steps. Notably, we discover a peculiar yet important phenomenon: despite the error propagating throughout the entire chain-of-thought (CoT) without any verbalized correction, the model still reaches the correct final answer after the thinking process finishes. This recovery implies the existence of an internal mechanism helping the model to detect errors and trigger self-correction, which we refer to as the hidden critique ability. Building on feature space analysis, we identify a highly interpretable critique vector representing this behavior. Extensive experiments across multiple model scales and families demonstrate that steering latent representations with this vector improves the model's error detection capability and enhances the performance of test-time scaling at no extra training cost. Our findings provide a valuable understanding of LRMs' critique behavior, suggesting a promising direction to control and improve their self-verification mechanism. Our code is available at: https://github.com/mail-research/lrm-critique-vectors.