Optimierung der Längenkompression in großen Reasoning-Modellen
Optimizing Length Compression in Large Reasoning Models
June 17, 2025
papers.authors: Zhengxiang Cheng, Dongping Chen, Mingyang Fu, Tianyi Zhou
cs.AI
papers.abstract
Große Reasoning-Modelle (LRMs) haben bemerkenswerte Erfolge erzielt, leiden jedoch oft darunter, unnötige und ausführliche Reasoning-Ketten zu produzieren. Wir identifizieren einen Kernaspekt dieses Problems als „ungültiges Denken“ – Modelle neigen dazu, ihre Arbeit wiederholt zu überprüfen, nachdem sie die richtige Antwort abgeleitet haben. Um diese spezifische Ineffizienz zu beheben, gehen wir über die allgemeinen Prinzipien von Effektivität und Effizienz hinaus und schlagen zwei neue, fein abgestimmte Prinzipien vor: Kürze, die die Beseitigung von Redundanz befürwortet, und Ausreichendheit, die sicherstellt, dass kritische Reasoning-Schritte erhalten bleiben. Angeleitet von diesen Prinzipien führen wir LC-R1 ein, eine Post-Training-Methode basierend auf Group Relative Policy Optimization (GRPO). LC-R1 verwendet eine neuartige Kombination aus einem Längen-Belohnungssystem für allgemeine Prägnanz und einem Kompressions-Belohnungssystem, das speziell darauf ausgelegt ist, den ungültigen Teil des Denkprozesses zu entfernen. Umfangreiche Experimente auf mehreren Reasoning-Benchmarks zeigen, dass LC-R1 eine signifikante Reduzierung der Sequenzlänge (~50%) bei nur einem marginalen (~2%) Genauigkeitsverlust erreicht und damit einen günstigen Kompromiss auf der Pareto-Front erzielt, der eine hohe Kompression priorisiert. Unsere Analyse bestätigt weiterhin die Robustheit von LC-R1 und liefert wertvolle Erkenntnisse für die Entwicklung leistungsfähigerer und gleichzeitig recheneffizienterer LRMs. Unser Code ist unter https://github.com/zxiangx/LC-R1 veröffentlicht.
English
Large Reasoning Models (LRMs) have achieved remarkable success, yet they
often suffer from producing unnecessary and verbose reasoning chains. We
identify a core aspect of this issue as "invalid thinking" -- models tend to
repeatedly double-check their work after having derived the correct answer. To
address this specific inefficiency, we move beyond the general principles of
Efficacy and Efficiency to propose two new, fine-grained principles: Brevity,
which advocates for eliminating redundancy, and Sufficiency, which ensures
critical reasoning steps are preserved. Guided by these principles, we
introduce LC-R1, a post-training method based on Group Relative Policy
Optimization (GRPO). LC-R1 employs a novel combination of a Length Reward for
overall conciseness and a Compress Reward that is specifically designed to
remove the invalid portion of the thinking process. Extensive experiments on
multiple reasoning benchmarks demonstrate that LC-R1 achieves a significant
reduction in sequence length (~50%) with only a marginal (~2%) drop in
accuracy, achieving a favorable trade-off point on the Pareto frontier that
prioritizes high compression. Our analysis further validates the robustness of
LC-R1 and provides valuable insights for developing more powerful yet
computationally efficient LRMs. Our code is released at
https://github.com/zxiangx/LC-R1.