Optimisation de la compression de longueur dans les modèles de raisonnement à grande échelle
Optimizing Length Compression in Large Reasoning Models
June 17, 2025
Auteurs: Zhengxiang Cheng, Dongping Chen, Mingyang Fu, Tianyi Zhou
cs.AI
Résumé
Les Grands Modèles de Raisonnement (LRMs) ont obtenu un succès remarquable, mais ils souffrent souvent de produire des chaînes de raisonnement inutiles et verbeuses. Nous identifions un aspect central de ce problème comme étant la "pensée invalide" — les modèles ont tendance à revérifier à plusieurs reprises leur travail après avoir dérivé la bonne réponse. Pour remédier à cette inefficacité spécifique, nous allons au-delà des principes généraux d'Efficacité et d'Efficience pour proposer deux nouveaux principes plus fins : la Brièveté, qui prône l'élimination de la redondance, et la Suffisance, qui garantit la préservation des étapes critiques du raisonnement. Guidés par ces principes, nous introduisons LC-R1, une méthode de post-entraînement basée sur l'Optimisation Relative de Politique par Groupe (GRPO). LC-R1 utilise une combinaison novatrice d'une Récompense de Longueur pour la concision globale et d'une Récompense de Compression spécialement conçue pour supprimer la partie invalide du processus de pensée. Des expériences approfondies sur plusieurs benchmarks de raisonnement démontrent que LC-R1 permet une réduction significative de la longueur des séquences (~50%) avec seulement une baisse marginale (~2%) de la précision, atteignant un point d'équilibre favorable sur la frontière de Pareto qui privilégie une compression élevée. Notre analyse valide en outre la robustesse de LC-R1 et fournit des insights précieux pour le développement de LRMs plus puissants tout en étant efficaces sur le plan computationnel. Notre code est disponible à l'adresse https://github.com/zxiangx/LC-R1.
English
Large Reasoning Models (LRMs) have achieved remarkable success, yet they
often suffer from producing unnecessary and verbose reasoning chains. We
identify a core aspect of this issue as "invalid thinking" -- models tend to
repeatedly double-check their work after having derived the correct answer. To
address this specific inefficiency, we move beyond the general principles of
Efficacy and Efficiency to propose two new, fine-grained principles: Brevity,
which advocates for eliminating redundancy, and Sufficiency, which ensures
critical reasoning steps are preserved. Guided by these principles, we
introduce LC-R1, a post-training method based on Group Relative Policy
Optimization (GRPO). LC-R1 employs a novel combination of a Length Reward for
overall conciseness and a Compress Reward that is specifically designed to
remove the invalid portion of the thinking process. Extensive experiments on
multiple reasoning benchmarks demonstrate that LC-R1 achieves a significant
reduction in sequence length (~50%) with only a marginal (~2%) drop in
accuracy, achieving a favorable trade-off point on the Pareto frontier that
prioritizes high compression. Our analysis further validates the robustness of
LC-R1 and provides valuable insights for developing more powerful yet
computationally efficient LRMs. Our code is released at
https://github.com/zxiangx/LC-R1.