Minderung von Überdenken durch Gestaltung des Schlussfolgerns
Mitigating Overthinking through Reasoning Shaping
October 10, 2025
papers.authors: Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang
cs.AI
papers.abstract
Große Reasoning-Modelle (LRMs), die durch Reinforcement Learning from Verifier Reward (RLVR) verstärkt werden, haben große Fähigkeiten bei der Problemlösung gezeigt, führen jedoch oft zu Überdenken: übermäßiges, abschweifendes Reasoning, das die Rechenkosten in die Höhe treibt. Bisherige Ansätze zur Bestrafung in RLVR schaffen es zwar, den Token-Verbrauch zu reduzieren, beeinträchtigen jedoch häufig die Modellleistung, was auf die zu einfache Token-weise Überwachung zurückzuführen ist. In diesem Artikel argumentieren wir, dass die Granularität der Überwachung eine entscheidende Rolle bei der Balance zwischen Effizienz und Genauigkeit spielt, und schlagen Group Relative Segment Penalization (GRSP) vor, eine schrittweise Methode zur Regularisierung des Reasonings. Da vorläufige Analysen zeigen, dass Reasoning-Segmente stark mit dem Token-Verbrauch und der Modellleistung korrelieren, entwickeln wir einen längenbewussten Gewichtungsmechanismus über Segment-Cluster hinweg. Umfangreiche Experimente belegen, dass GRSP eine überlegene Token-Effizienz erreicht, ohne die Genauigkeit stark zu beeinträchtigen, insbesondere bei schwierigeren Problemen. Darüber hinaus stabilisiert GRSP das RL-Training und skaliert effektiv über verschiedene Modellgrößen hinweg.
English
Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier
Reward (RLVR) have shown great power in problem solving, yet they often cause
overthinking: excessive, meandering reasoning that inflates computational cost.
Prior designs of penalization in RLVR manage to reduce token consumption while
often harming model performance, which arises from the oversimplicity of
token-level supervision. In this paper, we argue that the granularity of
supervision plays a crucial role in balancing efficiency and accuracy, and
propose Group Relative Segment Penalization (GRSP), a step-level method to
regularize reasoning. Since preliminary analyses show that reasoning segments
are strongly correlated with token consumption and model performance, we design
a length-aware weighting mechanism across segment clusters. Extensive
experiments demonstrate that GRSP achieves superior token efficiency without
heavily compromising accuracy, especially the advantages with harder problems.
Moreover, GRSP stabilizes RL training and scales effectively across model
sizes.