ChatPaper.aiChatPaper

Mitigando o Pensamento Excessivo através da Moldagem do Raciocínio

Mitigating Overthinking through Reasoning Shaping

October 10, 2025
Autores: Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang
cs.AI

Resumo

Modelos de raciocínio de grande escala (LRMs) impulsionados por Aprendizado por Reforço com Recompensa de Verificador (RLVR) têm demonstrado grande poder na resolução de problemas, mas frequentemente causam sobrepensamento: raciocínio excessivo e desviante que infla o custo computacional. Projetos anteriores de penalização no RLVR conseguiram reduzir o consumo de tokens, mas muitas vezes prejudicaram o desempenho do modelo, o que decorre da supervisão excessivamente simplista em nível de token. Neste artigo, argumentamos que a granularidade da supervisão desempenha um papel crucial no equilíbrio entre eficiência e precisão, e propomos a Penalização de Segmento Relativo em Grupo (GRSP), um método em nível de etapa para regular o raciocínio. Como análises preliminares mostram que segmentos de raciocínio estão fortemente correlacionados com o consumo de tokens e o desempenho do modelo, projetamos um mecanismo de ponderação consciente do comprimento em clusters de segmentos. Experimentos extensivos demonstram que o GRSP alcança uma eficiência superior de tokens sem comprometer significativamente a precisão, especialmente em problemas mais difíceis. Além disso, o GRSP estabiliza o treinamento de RL e escala efetivamente em diferentes tamanhos de modelos.
English
Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier Reward (RLVR) have shown great power in problem solving, yet they often cause overthinking: excessive, meandering reasoning that inflates computational cost. Prior designs of penalization in RLVR manage to reduce token consumption while often harming model performance, which arises from the oversimplicity of token-level supervision. In this paper, we argue that the granularity of supervision plays a crucial role in balancing efficiency and accuracy, and propose Group Relative Segment Penalization (GRSP), a step-level method to regularize reasoning. Since preliminary analyses show that reasoning segments are strongly correlated with token consumption and model performance, we design a length-aware weighting mechanism across segment clusters. Extensive experiments demonstrate that GRSP achieves superior token efficiency without heavily compromising accuracy, especially the advantages with harder problems. Moreover, GRSP stabilizes RL training and scales effectively across model sizes.
PDF43October 13, 2025