ChatPaper.aiChatPaper

推論形成による過剰思考の軽減

Mitigating Overthinking through Reasoning Shaping

October 10, 2025
著者: Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang
cs.AI

要旨

検証者報酬による強化学習(RLVR)で強化された大規模推論モデル(LRM)は、問題解決において大きな力を発揮する一方で、過剰な思考(overthinking)を引き起こすことが多い。過剰思考とは、計算コストを膨らませるような、冗長で回りくどい推論プロセスを指す。これまでのRLVRにおけるペナルティ設計は、トークン消費量を削減することには成功しているものの、モデルの性能を損なうことが多く、これはトークンレベルの監督の単純さに起因している。本論文では、監督の粒度が効率と精度のバランスにおいて重要な役割を果たすと主張し、推論を正則化するためのステップレベルの手法である「グループ相対セグメントペナルティ(GRSP)」を提案する。予備分析により、推論セグメントがトークン消費量とモデル性能と強く相関していることが示されたため、セグメントクラスター間で長さを考慮した重み付けメカニズムを設計した。大規模な実験により、GRSPが精度を大きく損なうことなく優れたトークン効率を達成し、特に難しい問題においてその利点が顕著であることが実証された。さらに、GRSPはRLトレーニングを安定化させ、モデルサイズにわたって効果的にスケールする。
English
Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier Reward (RLVR) have shown great power in problem solving, yet they often cause overthinking: excessive, meandering reasoning that inflates computational cost. Prior designs of penalization in RLVR manage to reduce token consumption while often harming model performance, which arises from the oversimplicity of token-level supervision. In this paper, we argue that the granularity of supervision plays a crucial role in balancing efficiency and accuracy, and propose Group Relative Segment Penalization (GRSP), a step-level method to regularize reasoning. Since preliminary analyses show that reasoning segments are strongly correlated with token consumption and model performance, we design a length-aware weighting mechanism across segment clusters. Extensive experiments demonstrate that GRSP achieves superior token efficiency without heavily compromising accuracy, especially the advantages with harder problems. Moreover, GRSP stabilizes RL training and scales effectively across model sizes.
PDF43October 13, 2025