Atténuer la surréflexion par le façonnage du raisonnement
Mitigating Overthinking through Reasoning Shaping
October 10, 2025
papers.authors: Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang
cs.AI
papers.abstract
Les grands modèles de raisonnement (LRM) renforcés par l'apprentissage par renforcement basé sur la récompense du vérificateur (RLVR) ont démontré une grande puissance dans la résolution de problèmes, mais ils entraînent souvent une surréflexion : un raisonnement excessif et sinueux qui augmente les coûts de calcul. Les conceptions précédentes de pénalisation dans le RLVR parviennent à réduire la consommation de tokens, mais nuisent souvent à la performance du modèle, en raison de la simplicité excessive de la supervision au niveau des tokens. Dans cet article, nous soutenons que la granularité de la supervision joue un rôle crucial dans l'équilibre entre efficacité et précision, et proposons la Pénalisation Relative par Segment de Groupe (GRSP), une méthode au niveau des étapes pour régulariser le raisonnement. Étant donné que des analyses préliminaires montrent que les segments de raisonnement sont fortement corrélés à la consommation de tokens et à la performance du modèle, nous concevons un mécanisme de pondération tenant compte de la longueur à travers des clusters de segments. Des expériences approfondies démontrent que le GRSP atteint une efficacité supérieure en termes de tokens sans compromettre lourdement la précision, en particulier pour les problèmes plus difficiles. De plus, le GRSP stabilise l'entraînement par renforcement et s'adapte efficacement à différentes tailles de modèles.
English
Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier
Reward (RLVR) have shown great power in problem solving, yet they often cause
overthinking: excessive, meandering reasoning that inflates computational cost.
Prior designs of penalization in RLVR manage to reduce token consumption while
often harming model performance, which arises from the oversimplicity of
token-level supervision. In this paper, we argue that the granularity of
supervision plays a crucial role in balancing efficiency and accuracy, and
propose Group Relative Segment Penalization (GRSP), a step-level method to
regularize reasoning. Since preliminary analyses show that reasoning segments
are strongly correlated with token consumption and model performance, we design
a length-aware weighting mechanism across segment clusters. Extensive
experiments demonstrate that GRSP achieves superior token efficiency without
heavily compromising accuracy, especially the advantages with harder problems.
Moreover, GRSP stabilizes RL training and scales effectively across model
sizes.