ChatPaper.aiChatPaper

Overdenken verminderen door redeneringsvorming

Mitigating Overthinking through Reasoning Shaping

October 10, 2025
Auteurs: Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang
cs.AI

Samenvatting

Grote redeneermodellen (LRMs) die worden verbeterd door Reinforcement Learning from Verifier Reward (RLVR) hebben een grote kracht getoond in het oplossen van problemen, maar veroorzaken vaak overdenken: excessief, meanderend redeneren dat de rekenkosten opdrijft. Eerdere ontwerpen van strafmaatregelen in RLVR zijn erin geslaagd het tokenverbruik te verminderen, maar schaden vaak de modelprestaties, wat voortkomt uit de te eenvoudige token-niveau supervisie. In dit artikel beargumenteren we dat de granulariteit van supervisie een cruciale rol speelt bij het balanceren van efficiëntie en nauwkeurigheid, en stellen we Group Relative Segment Penalization (GRSP) voor, een stap-niveau methode om redeneren te reguleren. Aangezien voorlopige analyses aantonen dat redeneersegmenten sterk gecorreleerd zijn met tokenverbruik en modelprestaties, ontwerpen we een lengtebewust weegmechanisme over segmentclusters. Uitgebreide experimenten tonen aan dat GRSP superieure token-efficiëntie bereikt zonder de nauwkeurigheid zwaar te compromitteren, vooral de voordelen bij moeilijkere problemen. Bovendien stabiliseert GRSP RL-training en schaalt het effectief over modelgroottes.
English
Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier Reward (RLVR) have shown great power in problem solving, yet they often cause overthinking: excessive, meandering reasoning that inflates computational cost. Prior designs of penalization in RLVR manage to reduce token consumption while often harming model performance, which arises from the oversimplicity of token-level supervision. In this paper, we argue that the granularity of supervision plays a crucial role in balancing efficiency and accuracy, and propose Group Relative Segment Penalization (GRSP), a step-level method to regularize reasoning. Since preliminary analyses show that reasoning segments are strongly correlated with token consumption and model performance, we design a length-aware weighting mechanism across segment clusters. Extensive experiments demonstrate that GRSP achieves superior token efficiency without heavily compromising accuracy, especially the advantages with harder problems. Moreover, GRSP stabilizes RL training and scales effectively across model sizes.
PDF43October 13, 2025