Stopp, wenn das Reasoning konvergiert: Semantikerhaltender vorzeitiger Ausstieg für Reasoning-Modelle

Zusammenfassung

Große Reasoning-Modelle (LRMs) erzielen eine hohe Leistung, indem sie lange Gedankenketten (CoT) generieren, neigen jedoch dazu, zu viel zu denken, d.h. sie setzen die Überlegungen fort, nachdem eine Lösung bereits stabilisiert ist, und verschwenden dadurch Tokens und erhöhen die Latenz. Bestehende Methoden für Early-Exit zur Inferenzzeit stützen sich hauptsächlich auf Signale auf Antwortebene, wie z.B. Konfidenz oder Konsistenz von Testantworten, um zu entscheiden, wann abgebrochen werden soll. Diese Signale spiegeln jedoch hauptsächlich die Bereitschaft der Antwort wider und nicht die Konvergenz des Reasoning-Prozesses: Sie können ausgelöst werden, bevor das Modell die Erkundung oder Selbstkorrektur abgeschlossen hat, was zu vorzeitigen Ausstiegen führt, die die Genauigkeit der endgültigen Antwort beeinträchtigen und die beibehaltene Reasoning-Kette semantisch unvollständig lassen können. Wir identifizieren semantische Redundanz auf Reasoning-Ebene als komplementäres Signal für einen semantikerhaltenden frühen Ausstieg: Wenn aufeinanderfolgende Schritte keine neuen Fortschritte mehr bringen, sondern stattdessen bereits etablierte Schlussfolgerungen erneut aufgreifen, ist die Reasoning-Trajektorie wahrscheinlich konvergiert. Aufbauend auf dieser Erkenntnis schlagen wir PUMA vor, ein Plug-and-Play-Framework, das einen leichten Redundanzdetektor mit einer Verifikation auf Antwortebene kombiniert. Der Detektor markiert semantisch redundante Kandidaten für den Ausstieg, während die Verifikation bestätigt, ob ein Stopp sicher ist. Dadurch kann PUMA redundante Fortsetzungen entfernen, während sowohl die Antwortgenauigkeit als auch ein kohärentes Reasoning-Präfix erhalten bleiben. Über fünf LRMs und fünf anspruchsvolle Reasoning-Benchmarks hinweg erreicht PUMA eine durchschnittliche Token-Reduktion von 26,2 %, während die Genauigkeit und die Qualität der beibehaltenen CoT erhalten bleiben. Zusätzliche Experimente zur Codegenerierung, zum Zero-Shot-Vision-Language-Reasoning und zur Internalisierung erlernter Stop-Politiken zeigen weiterhin, dass Redundanz auf Reasoning-Ebene ein robustes, übertragbares und erlernbares Signal für effizientes Reasoning ist. Unser Code ist verfügbar unter https://github.com/giovanni-vaccarino/PUMA.

English

Large Reasoning Models (LRMs) achieve strong performance by generating long chains of thought (CoT), but often overthink, continuing to reason after a solution has already stabilized and thereby wasting tokens and increasing latency. Existing inference-time early-exit methods rely primarily on answer-level signals, such as confidence or trial-answer consistency, to decide when to stop. However, these signals mainly reflect answer readiness rather than reasoning convergence: they may trigger before the model has finished exploring or self-correcting, causing premature exits that can degrade final-answer accuracy and leave the retained reasoning chain semantically incomplete. We identify reasoning-level semantic redundancy as a complementary signal for semantic-preserving early exit: when successive steps no longer add novel progress and instead revisit established conclusions, the reasoning trajectory has likely converged. Building on this insight, we propose PUMA, a plug-and-play framework that combines a lightweight Redundancy Detector with answer-level verification. The detector flags semantically redundant candidate exits, while verification confirms whether stopping is safe, allowing PUMA to remove redundant continuation while preserving both answer accuracy and a coherent reasoning prefix. Across five LRMs and five challenging reasoning benchmarks, PUMA achieves 26.2% average token reduction while preserving accuracy and retained CoT quality. Additional experiments on code generation, zero-shot vision-language reasoning, and learned stopping-policy internalization further demonstrate that reasoning-level redundancy is a robust, transferable, and learnable signal for efficient reasoning. Our code is available at https://github.com/giovanni-vaccarino/PUMA.