Arrêt lorsque le raisonnement converge : sortie anticipée préservant la sémantique pour les modèles de raisonnement

Résumé

Les Grands Modèles de Raisonnement (LRM) obtiennent des performances élevées en générant de longues chaînes de pensée (CoT), mais ils réfléchissent souvent trop, poursuivant le raisonnement après qu'une solution s'est déjà stabilisée, gaspillant ainsi des tokens et augmentant la latence. Les méthodes existantes de sortie anticipée au moment de l'inférence reposent principalement sur des signaux au niveau de la réponse, tels que la confiance ou la cohérence des réponses d'essai, pour décider quand s'arrêter. Cependant, ces signaux reflètent principalement la disponibilité de la réponse plutôt que la convergence du raisonnement : ils peuvent se déclencher avant que le modèle ait fini d'explorer ou de s'auto-corriger, provoquant des sorties prématurées qui peuvent dégrader la précision de la réponse finale et laisser la chaîne de raisonnement retenue sémantiquement incomplète. Nous identifions la redondance sémantique au niveau du raisonnement comme un signal complémentaire pour une sortie anticipée préservant la sémantique : lorsque les étapes successives n'apportent plus de progrès nouveau et revisitent des conclusions déjà établies, la trajectoire de raisonnement a probablement convergé. En nous appuyant sur cette observation, nous proposons PUMA, un cadre plug-and-play qui combine un Détecteur de Redondance léger avec une vérification au niveau de la réponse. Le détecteur signale les sorties candidates sémantiquement redondantes, tandis que la vérification confirme si l'arrêt est sûr, permettant à PUMA de supprimer la continuation redondante tout en préservant à la fois la précision de la réponse et un préfixe de raisonnement cohérent. Sur cinq LRM et cinq benchmarks de raisonnement exigeants, PUMA atteint une réduction moyenne de 26,2 % des tokens tout en préservant la précision et la qualité de la CoT retenue. Des expériences supplémentaires sur la génération de code, le raisonnement zéro-shot vision-langage et l'internalisation d'une politique d'arrêt apprise démontrent en outre que la redondance au niveau du raisonnement est un signal robuste, transférable et apprenable pour un raisonnement efficace. Notre code est disponible à l'adresse https://github.com/giovanni-vaccarino/PUMA.

English

Large Reasoning Models (LRMs) achieve strong performance by generating long chains of thought (CoT), but often overthink, continuing to reason after a solution has already stabilized and thereby wasting tokens and increasing latency. Existing inference-time early-exit methods rely primarily on answer-level signals, such as confidence or trial-answer consistency, to decide when to stop. However, these signals mainly reflect answer readiness rather than reasoning convergence: they may trigger before the model has finished exploring or self-correcting, causing premature exits that can degrade final-answer accuracy and leave the retained reasoning chain semantically incomplete. We identify reasoning-level semantic redundancy as a complementary signal for semantic-preserving early exit: when successive steps no longer add novel progress and instead revisit established conclusions, the reasoning trajectory has likely converged. Building on this insight, we propose PUMA, a plug-and-play framework that combines a lightweight Redundancy Detector with answer-level verification. The detector flags semantically redundant candidate exits, while verification confirms whether stopping is safe, allowing PUMA to remove redundant continuation while preserving both answer accuracy and a coherent reasoning prefix. Across five LRMs and five challenging reasoning benchmarks, PUMA achieves 26.2% average token reduction while preserving accuracy and retained CoT quality. Additional experiments on code generation, zero-shot vision-language reasoning, and learned stopping-policy internalization further demonstrate that reasoning-level redundancy is a robust, transferable, and learnable signal for efficient reasoning. Our code is available at https://github.com/giovanni-vaccarino/PUMA.