ChatPaper.aiChatPaper

Optimisation de la compression de longueur dans les modèles de raisonnement à grande échelle

Optimizing Length Compression in Large Reasoning Models

June 17, 2025
Auteurs: Zhengxiang Cheng, Dongping Chen, Mingyang Fu, Tianyi Zhou
cs.AI

Résumé

Les Grands Modèles de Raisonnement (LRMs) ont obtenu un succès remarquable, mais ils souffrent souvent de produire des chaînes de raisonnement inutiles et verbeuses. Nous identifions un aspect central de ce problème comme étant la "pensée invalide" — les modèles ont tendance à revérifier à plusieurs reprises leur travail après avoir dérivé la bonne réponse. Pour remédier à cette inefficacité spécifique, nous allons au-delà des principes généraux d'Efficacité et d'Efficience pour proposer deux nouveaux principes plus fins : la Brièveté, qui prône l'élimination de la redondance, et la Suffisance, qui garantit la préservation des étapes critiques du raisonnement. Guidés par ces principes, nous introduisons LC-R1, une méthode de post-entraînement basée sur l'Optimisation Relative de Politique par Groupe (GRPO). LC-R1 utilise une combinaison novatrice d'une Récompense de Longueur pour la concision globale et d'une Récompense de Compression spécialement conçue pour supprimer la partie invalide du processus de pensée. Des expériences approfondies sur plusieurs benchmarks de raisonnement démontrent que LC-R1 permet une réduction significative de la longueur des séquences (~50%) avec seulement une baisse marginale (~2%) de la précision, atteignant un point d'équilibre favorable sur la frontière de Pareto qui privilégie une compression élevée. Notre analyse valide en outre la robustesse de LC-R1 et fournit des insights précieux pour le développement de LRMs plus puissants tout en étant efficaces sur le plan computationnel. Notre code est disponible à l'adresse https://github.com/zxiangx/LC-R1.
English
Large Reasoning Models (LRMs) have achieved remarkable success, yet they often suffer from producing unnecessary and verbose reasoning chains. We identify a core aspect of this issue as "invalid thinking" -- models tend to repeatedly double-check their work after having derived the correct answer. To address this specific inefficiency, we move beyond the general principles of Efficacy and Efficiency to propose two new, fine-grained principles: Brevity, which advocates for eliminating redundancy, and Sufficiency, which ensures critical reasoning steps are preserved. Guided by these principles, we introduce LC-R1, a post-training method based on Group Relative Policy Optimization (GRPO). LC-R1 employs a novel combination of a Length Reward for overall conciseness and a Compress Reward that is specifically designed to remove the invalid portion of the thinking process. Extensive experiments on multiple reasoning benchmarks demonstrate that LC-R1 achieves a significant reduction in sequence length (~50%) with only a marginal (~2%) drop in accuracy, achieving a favorable trade-off point on the Pareto frontier that prioritizes high compression. Our analysis further validates the robustness of LC-R1 and provides valuable insights for developing more powerful yet computationally efficient LRMs. Our code is released at https://github.com/zxiangx/LC-R1.
PDF62June 18, 2025