Optimización de la Compresión de Longitud en Modelos de Razonamiento a Gran Escala
Optimizing Length Compression in Large Reasoning Models
June 17, 2025
Autores: Zhengxiang Cheng, Dongping Chen, Mingyang Fu, Tianyi Zhou
cs.AI
Resumen
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han logrado un éxito notable, aunque a menudo presentan el problema de generar cadenas de razonamiento innecesarias y verbosas. Identificamos un aspecto central de este problema como "pensamiento inválido": los modelos tienden a verificar repetidamente su trabajo después de haber obtenido la respuesta correcta. Para abordar esta ineficiencia específica, vamos más allá de los principios generales de Eficacia y Eficiencia para proponer dos nuevos principios más detallados: Brevedad, que aboga por eliminar la redundancia, y Suficiencia, que asegura que se preserven los pasos críticos del razonamiento. Guiados por estos principios, presentamos LC-R1, un método de posentrenamiento basado en la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés). LC-R1 emplea una combinación novedosa de una Recompensa de Longitud para la concisión general y una Recompensa de Compresión diseñada específicamente para eliminar la porción inválida del proceso de pensamiento. Experimentos extensos en múltiples benchmarks de razonamiento demuestran que LC-R1 logra una reducción significativa en la longitud de las secuencias (~50%) con solo una caída marginal (~2%) en la precisión, alcanzando un punto favorable en la frontera de Pareto que prioriza una alta compresión. Nuestro análisis valida además la robustez de LC-R1 y proporciona insights valiosos para desarrollar LRMs más potentes y computacionalmente eficientes. Nuestro código está disponible en https://github.com/zxiangx/LC-R1.
English
Large Reasoning Models (LRMs) have achieved remarkable success, yet they
often suffer from producing unnecessary and verbose reasoning chains. We
identify a core aspect of this issue as "invalid thinking" -- models tend to
repeatedly double-check their work after having derived the correct answer. To
address this specific inefficiency, we move beyond the general principles of
Efficacy and Efficiency to propose two new, fine-grained principles: Brevity,
which advocates for eliminating redundancy, and Sufficiency, which ensures
critical reasoning steps are preserved. Guided by these principles, we
introduce LC-R1, a post-training method based on Group Relative Policy
Optimization (GRPO). LC-R1 employs a novel combination of a Length Reward for
overall conciseness and a Compress Reward that is specifically designed to
remove the invalid portion of the thinking process. Extensive experiments on
multiple reasoning benchmarks demonstrate that LC-R1 achieves a significant
reduction in sequence length (~50%) with only a marginal (~2%) drop in
accuracy, achieving a favorable trade-off point on the Pareto frontier that
prioritizes high compression. Our analysis further validates the robustness of
LC-R1 and provides valuable insights for developing more powerful yet
computationally efficient LRMs. Our code is released at
https://github.com/zxiangx/LC-R1.