Mitigando o Pensamento Excessivo através da Moldagem do Raciocínio
Mitigating Overthinking through Reasoning Shaping
October 10, 2025
Autores: Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang
cs.AI
Resumo
Modelos de raciocínio de grande escala (LRMs) impulsionados por Aprendizado por Reforço com Recompensa de Verificador (RLVR) têm demonstrado grande poder na resolução de problemas, mas frequentemente causam sobrepensamento: raciocínio excessivo e desviante que infla o custo computacional. Projetos anteriores de penalização no RLVR conseguiram reduzir o consumo de tokens, mas muitas vezes prejudicaram o desempenho do modelo, o que decorre da supervisão excessivamente simplista em nível de token. Neste artigo, argumentamos que a granularidade da supervisão desempenha um papel crucial no equilíbrio entre eficiência e precisão, e propomos a Penalização de Segmento Relativo em Grupo (GRSP), um método em nível de etapa para regular o raciocínio. Como análises preliminares mostram que segmentos de raciocínio estão fortemente correlacionados com o consumo de tokens e o desempenho do modelo, projetamos um mecanismo de ponderação consciente do comprimento em clusters de segmentos. Experimentos extensivos demonstram que o GRSP alcança uma eficiência superior de tokens sem comprometer significativamente a precisão, especialmente em problemas mais difíceis. Além disso, o GRSP estabiliza o treinamento de RL e escala efetivamente em diferentes tamanhos de modelos.
English
Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier
Reward (RLVR) have shown great power in problem solving, yet they often cause
overthinking: excessive, meandering reasoning that inflates computational cost.
Prior designs of penalization in RLVR manage to reduce token consumption while
often harming model performance, which arises from the oversimplicity of
token-level supervision. In this paper, we argue that the granularity of
supervision plays a crucial role in balancing efficiency and accuracy, and
propose Group Relative Segment Penalization (GRSP), a step-level method to
regularize reasoning. Since preliminary analyses show that reasoning segments
are strongly correlated with token consumption and model performance, we design
a length-aware weighting mechanism across segment clusters. Extensive
experiments demonstrate that GRSP achieves superior token efficiency without
heavily compromising accuracy, especially the advantages with harder problems.
Moreover, GRSP stabilizes RL training and scales effectively across model
sizes.