Stop wanneer redeneren convergeert: Semantiekbehoudende vroege uittreding voor redeneermodellen

Samenvatting

Grote Redeneringsmodellen (LRM's) behalen sterke prestaties door lange denkketens (CoT) te genereren, maar hebben de neiging te overdenken: ze blijven redeneren nadat een oplossing al gestabiliseerd is, wat leidt tot verspilling van tokens en toegenomen latentie. Bestaande vroege-uitstapmethoden tijdens inferentie vertrouwen voornamelijk op antwoordniveausignalen, zoals vertrouwen of consistentie van proefantwoorden, om te beslissen wanneer te stoppen. Deze signalen weerspiegelen echter voornamelijk de gereedheid van het antwoord, niet de convergentie van het redeneren: ze kunnen worden geactiveerd voordat het model klaar is met verkennen of zelfcorrigeren, wat leidt tot voortijdige uitstappen die de nauwkeurigheid van het uiteindelijke antwoord kunnen verminderen en de bewaarde redeneerketen semantisch onvolledig maken. Wij identificeren semantische redundantie op redeneerniveau als een complementair signaal voor semantiekbehoudende vroege uitstap: wanneer opeenvolgende stappen geen nieuwe vooruitgang meer boeken en in plaats daarvan terugkeren naar gevestigde conclusies, is het redeneringstraject waarschijnlijk geconvergeerd. Voortbouwend op dit inzicht introduceren wij PUMA, een plug-and-play raamwerk dat een lichte Redundantiedetector combineert met verificatie op antwoordniveau. De detector markeert semantisch redundante kandidaat-uitstapmomenten, terwijl verificatie bevestigt of stoppen veilig is, waardoor PUMA redundante voortzetting kan verwijderen terwijl zowel de antwoordnauwkeurigheid als een coherente redeneervoorvoegsel behouden blijft. Over vijf LRM's en vijf uitdagende redeneerbenchmarks heen bereikt PUMA een gemiddelde tokenreductie van 26,2%, met behoud van nauwkeurigheid en bewaarde CoT-kwaliteit. Aanvullende experimenten op het gebied van codegeneratie, zero-shot visie-taalredenering en geïnternaliseerd aangeleerd stopbeleid tonen verder aan dat redundantie op redeneerniveau een robuust, overdraagbaar en leerbaar signaal is voor efficiënt redeneren. Onze code is beschikbaar op https://github.com/giovanni-vaccarino/PUMA.

English

Large Reasoning Models (LRMs) achieve strong performance by generating long chains of thought (CoT), but often overthink, continuing to reason after a solution has already stabilized and thereby wasting tokens and increasing latency. Existing inference-time early-exit methods rely primarily on answer-level signals, such as confidence or trial-answer consistency, to decide when to stop. However, these signals mainly reflect answer readiness rather than reasoning convergence: they may trigger before the model has finished exploring or self-correcting, causing premature exits that can degrade final-answer accuracy and leave the retained reasoning chain semantically incomplete. We identify reasoning-level semantic redundancy as a complementary signal for semantic-preserving early exit: when successive steps no longer add novel progress and instead revisit established conclusions, the reasoning trajectory has likely converged. Building on this insight, we propose PUMA, a plug-and-play framework that combines a lightweight Redundancy Detector with answer-level verification. The detector flags semantically redundant candidate exits, while verification confirms whether stopping is safe, allowing PUMA to remove redundant continuation while preserving both answer accuracy and a coherent reasoning prefix. Across five LRMs and five challenging reasoning benchmarks, PUMA achieves 26.2% average token reduction while preserving accuracy and retained CoT quality. Additional experiments on code generation, zero-shot vision-language reasoning, and learned stopping-policy internalization further demonstrate that reasoning-level redundancy is a robust, transferable, and learnable signal for efficient reasoning. Our code is available at https://github.com/giovanni-vaccarino/PUMA.