Смягчение чрезмерного анализа через формирование рассуждений
Mitigating Overthinking through Reasoning Shaping
October 10, 2025
Авторы: Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang
cs.AI
Аннотация
Крупные модели рассуждений (LRMs), усиленные обучением с подкреплением на основе вознаграждения от верификатора (RLVR), продемонстрировали значительную эффективность в решении задач, однако они часто вызывают "переосмысление": избыточные, блуждающие рассуждения, которые увеличивают вычислительные затраты. Предыдущие подходы к штрафованию в RLVR позволяли сократить потребление токенов, но часто ухудшали производительность модели, что связано с чрезмерной упрощённостью контроля на уровне токенов. В данной статье мы утверждаем, что гранулярность контроля играет ключевую роль в балансе между эффективностью и точностью, и предлагаем метод группового относительного сегментного штрафования (GRSP) — подход на уровне шагов для регуляризации рассуждений. Поскольку предварительные анализы показывают, что сегменты рассуждений тесно связаны с потреблением токенов и производительностью модели, мы разрабатываем механизм взвешивания, учитывающий длину, для кластеров сегментов. Многочисленные эксперименты демонстрируют, что GRSP обеспечивает превосходную эффективность использования токенов без значительного ущерба для точности, особенно в случае более сложных задач. Кроме того, GRSP стабилизирует обучение с подкреплением и эффективно масштабируется для моделей различных размеров.
English
Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier
Reward (RLVR) have shown great power in problem solving, yet they often cause
overthinking: excessive, meandering reasoning that inflates computational cost.
Prior designs of penalization in RLVR manage to reduce token consumption while
often harming model performance, which arises from the oversimplicity of
token-level supervision. In this paper, we argue that the granularity of
supervision plays a crucial role in balancing efficiency and accuracy, and
propose Group Relative Segment Penalization (GRSP), a step-level method to
regularize reasoning. Since preliminary analyses show that reasoning segments
are strongly correlated with token consumption and model performance, we design
a length-aware weighting mechanism across segment clusters. Extensive
experiments demonstrate that GRSP achieves superior token efficiency without
heavily compromising accuracy, especially the advantages with harder problems.
Moreover, GRSP stabilizes RL training and scales effectively across model
sizes.