Pare Quando o Raciocínio Converge: Saída Antecipada com Preservação Semântica para Modelos de Raciocínio

Resumo

Modelos de Raciocínio de Grande Porte (LRMs) alcançam desempenho robusto ao gerar longas cadeias de pensamento (CoT), mas frequentemente pensam em excesso, continuando a raciocinar mesmo após uma solução já ter se estabilizado, desperdiçando assim tokens e aumentando a latência. Métodos existentes de saída antecipada em tempo de inferência baseiam-se principalmente em sinais em nível de resposta, como confiança ou consistência de respostas provisórias, para decidir quando parar. No entanto, esses sinais refletem sobretudo a prontidão da resposta, e não a convergência do raciocínio: eles podem ser acionados antes que o modelo tenha terminado de explorar ou se autocorrigir, causando saídas prematuras que podem degradar a precisão da resposta final e deixar a cadeia de raciocínio retida semanticamente incompleta. Identificamos a redundância semântica em nível de raciocínio como um sinal complementar para a saída antecipada com preservação semântica: quando etapas sucessivas não acrescentam mais progresso novo e, em vez disso, revisitam conclusões já estabelecidas, a trajetória de raciocínio provavelmente convergiu. Com base nessa percepção, propomos o PUMA, uma estrutura plug-and-play que combina um Detector de Redundância leve com verificação em nível de resposta. O detector sinaliza candidatos a saída semanticamente redundantes, enquanto a verificação confirma se é seguro parar, permitindo que o PUMA remova a continuação redundante, preservando tanto a precisão da resposta quanto um prefixo de raciocínio coerente. Em cinco LRMs e cinco referências desafiadoras de raciocínio, o PUMA alcança uma redução média de tokens de 26,2%, mantendo a precisão e a qualidade da CoT retida. Experimentos adicionais em geração de código, raciocínio visão-linguagem zero-shot e internalização de política de parada aprendida demonstram ainda que a redundância em nível de raciocínio é um sinal robusto, transferível e aprendível para raciocínio eficiente. Nosso código está disponível em https://github.com/giovanni-vaccarino/PUMA.

English

Large Reasoning Models (LRMs) achieve strong performance by generating long chains of thought (CoT), but often overthink, continuing to reason after a solution has already stabilized and thereby wasting tokens and increasing latency. Existing inference-time early-exit methods rely primarily on answer-level signals, such as confidence or trial-answer consistency, to decide when to stop. However, these signals mainly reflect answer readiness rather than reasoning convergence: they may trigger before the model has finished exploring or self-correcting, causing premature exits that can degrade final-answer accuracy and leave the retained reasoning chain semantically incomplete. We identify reasoning-level semantic redundancy as a complementary signal for semantic-preserving early exit: when successive steps no longer add novel progress and instead revisit established conclusions, the reasoning trajectory has likely converged. Building on this insight, we propose PUMA, a plug-and-play framework that combines a lightweight Redundancy Detector with answer-level verification. The detector flags semantically redundant candidate exits, while verification confirms whether stopping is safe, allowing PUMA to remove redundant continuation while preserving both answer accuracy and a coherent reasoning prefix. Across five LRMs and five challenging reasoning benchmarks, PUMA achieves 26.2% average token reduction while preserving accuracy and retained CoT quality. Additional experiments on code generation, zero-shot vision-language reasoning, and learned stopping-policy internalization further demonstrate that reasoning-level redundancy is a robust, transferable, and learnable signal for efficient reasoning. Our code is available at https://github.com/giovanni-vaccarino/PUMA.