Mitigación del Sobreanálisis mediante la Configuración del Razonamiento
Mitigating Overthinking through Reasoning Shaping
October 10, 2025
Autores: Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang
cs.AI
Resumen
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) potenciados por Aprendizaje por Refuerzo con Recompensa de Verificador (RLVR, por sus siglas en inglés) han demostrado un gran poder en la resolución de problemas, aunque a menudo provocan sobrepensamiento: un razonamiento excesivo y divagante que incrementa el costo computacional. Diseños previos de penalización en RLVR logran reducir el consumo de tokens, pero frecuentemente perjudican el rendimiento del modelo, lo cual surge de la excesiva simplicidad de la supervisión a nivel de tokens. En este artículo, argumentamos que la granularidad de la supervisión juega un papel crucial en equilibrar la eficiencia y la precisión, y proponemos la Penalización de Segmentos Relativos por Grupos (GRSP, por sus siglas en inglés), un método a nivel de pasos para regularizar el razonamiento. Dado que análisis preliminares muestran que los segmentos de razonamiento están fuertemente correlacionados con el consumo de tokens y el rendimiento del modelo, diseñamos un mecanismo de ponderación consciente de la longitud a través de clusters de segmentos. Experimentos extensivos demuestran que GRSP logra una eficiencia superior en el uso de tokens sin comprometer significativamente la precisión, especialmente en problemas más difíciles. Además, GRSP estabiliza el entrenamiento de RL y escala efectivamente a través de diferentes tamaños de modelos.
English
Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier
Reward (RLVR) have shown great power in problem solving, yet they often cause
overthinking: excessive, meandering reasoning that inflates computational cost.
Prior designs of penalization in RLVR manage to reduce token consumption while
often harming model performance, which arises from the oversimplicity of
token-level supervision. In this paper, we argue that the granularity of
supervision plays a crucial role in balancing efficiency and accuracy, and
propose Group Relative Segment Penalization (GRSP), a step-level method to
regularize reasoning. Since preliminary analyses show that reasoning segments
are strongly correlated with token consumption and model performance, we design
a length-aware weighting mechanism across segment clusters. Extensive
experiments demonstrate that GRSP achieves superior token efficiency without
heavily compromising accuracy, especially the advantages with harder problems.
Moreover, GRSP stabilizes RL training and scales effectively across model
sizes.