Optimalisatie van lengtecompressie in grote redeneermodellen
Optimizing Length Compression in Large Reasoning Models
June 17, 2025
Auteurs: Zhengxiang Cheng, Dongping Chen, Mingyang Fu, Tianyi Zhou
cs.AI
Samenvatting
Large Reasoning Models (LRMs) hebben opmerkelijke successen behaald, maar lijden vaak onder het produceren van onnodige en uitgebreide redeneerketens. Wij identificeren een kernaspect van dit probleem als "ongeldig denken" — modellen hebben de neiging om hun werk herhaaldelijk dubbel te controleren nadat ze het juiste antwoord hebben afgeleid. Om deze specifieke inefficiëntie aan te pakken, gaan we verder dan de algemene principes van Effectiviteit en Efficiëntie en stellen we twee nieuwe, fijnmazige principes voor: Beknoptheid, dat pleit voor het elimineren van redundantie, en Toereikendheid, dat ervoor zorgt dat kritieke redeneerstappen behouden blijven. Geleid door deze principes introduceren we LC-R1, een post-trainingsmethode gebaseerd op Group Relative Policy Optimization (GRPO). LC-R1 maakt gebruik van een nieuwe combinatie van een Lengtebeloning voor algemene beknoptheid en een Compressiebeloning die specifiek is ontworpen om het ongeldige deel van het denkproces te verwijderen. Uitgebreide experimenten op meerdere redeneerbenchmarks tonen aan dat LC-R1 een significante vermindering in sequentielengte (~50%) bereikt met slechts een marginale (~2%) daling in nauwkeurigheid, wat resulteert in een gunstig afwegingpunt op de Pareto-grens dat hoge compressie prioriteert. Onze analyse valideert verder de robuustheid van LC-R1 en biedt waardevolle inzichten voor de ontwikkeling van krachtigere maar toch computationeel efficiënte LRMs. Onze code is vrijgegeven op https://github.com/zxiangx/LC-R1.
English
Large Reasoning Models (LRMs) have achieved remarkable success, yet they
often suffer from producing unnecessary and verbose reasoning chains. We
identify a core aspect of this issue as "invalid thinking" -- models tend to
repeatedly double-check their work after having derived the correct answer. To
address this specific inefficiency, we move beyond the general principles of
Efficacy and Efficiency to propose two new, fine-grained principles: Brevity,
which advocates for eliminating redundancy, and Sufficiency, which ensures
critical reasoning steps are preserved. Guided by these principles, we
introduce LC-R1, a post-training method based on Group Relative Policy
Optimization (GRPO). LC-R1 employs a novel combination of a Length Reward for
overall conciseness and a Compress Reward that is specifically designed to
remove the invalid portion of the thinking process. Extensive experiments on
multiple reasoning benchmarks demonstrate that LC-R1 achieves a significant
reduction in sequence length (~50%) with only a marginal (~2%) drop in
accuracy, achieving a favorable trade-off point on the Pareto frontier that
prioritizes high compression. Our analysis further validates the robustness of
LC-R1 and provides valuable insights for developing more powerful yet
computationally efficient LRMs. Our code is released at
https://github.com/zxiangx/LC-R1.