Mitigación del Sobreanálisis mediante la Configuración del Razonamiento

Resumen

Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) potenciados por Aprendizaje por Refuerzo con Recompensa de Verificador (RLVR, por sus siglas en inglés) han demostrado un gran poder en la resolución de problemas, aunque a menudo provocan sobrepensamiento: un razonamiento excesivo y divagante que incrementa el costo computacional. Diseños previos de penalización en RLVR logran reducir el consumo de tokens, pero frecuentemente perjudican el rendimiento del modelo, lo cual surge de la excesiva simplicidad de la supervisión a nivel de tokens. En este artículo, argumentamos que la granularidad de la supervisión juega un papel crucial en equilibrar la eficiencia y la precisión, y proponemos la Penalización de Segmentos Relativos por Grupos (GRSP, por sus siglas en inglés), un método a nivel de pasos para regularizar el razonamiento. Dado que análisis preliminares muestran que los segmentos de razonamiento están fuertemente correlacionados con el consumo de tokens y el rendimiento del modelo, diseñamos un mecanismo de ponderación consciente de la longitud a través de clusters de segmentos. Experimentos extensivos demuestran que GRSP logra una eficiencia superior en el uso de tokens sin comprometer significativamente la precisión, especialmente en problemas más difíciles. Además, GRSP estabiliza el entrenamiento de RL y escala efectivamente a través de diferentes tamaños de modelos.

English

Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier Reward (RLVR) have shown great power in problem solving, yet they often cause overthinking: excessive, meandering reasoning that inflates computational cost. Prior designs of penalization in RLVR manage to reduce token consumption while often harming model performance, which arises from the oversimplicity of token-level supervision. In this paper, we argue that the granularity of supervision plays a crucial role in balancing efficiency and accuracy, and propose Group Relative Segment Penalization (GRSP), a step-level method to regularize reasoning. Since preliminary analyses show that reasoning segments are strongly correlated with token consumption and model performance, we design a length-aware weighting mechanism across segment clusters. Extensive experiments demonstrate that GRSP achieves superior token efficiency without heavily compromising accuracy, especially the advantages with harder problems. Moreover, GRSP stabilizes RL training and scales effectively across model sizes.

Mitigación del Sobreanálisis mediante la Configuración del Razonamiento

Mitigating Overthinking through Reasoning Shaping

Resumen

Support