TL;DR: Zu lang, Gewichtung neu anpassen für effiziente LLM-Rationalkompression
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression
June 3, 2025
Autoren: Zhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben in letzter Zeit bemerkenswerte Fortschritte erzielt, indem sie Verstärkungslernen und erweiterte Chain-of-Thought (CoT)-Techniken nutzen. Die Herausforderung, effiziente Sprachschlussfolgerungen durchzuführen – insbesondere während der Inferenz mit extrem langen Ausgaben – hat jedoch zunehmend die Aufmerksamkeit der Forschungsgemeinschaft auf sich gezogen. In dieser Arbeit schlagen wir eine dynamische, verhältnisbasierte Trainingspipeline vor, die nicht auf aufwendige Datenannotationen oder Interpolationen zwischen mehreren Modellen angewiesen ist. Wir balancieren kontinuierlich die Gewichte zwischen den System-1- und System-2-Daten des Modells, um redundante Schlussfolgerungsprozesse zu eliminieren, während die Schlussfolgerungsfähigkeit des Modells erhalten bleibt. Wir validieren unseren Ansatz an Modellen wie DeepSeek-R1-Distill-7B und DeepSeek-R1-Distill-14B sowie an einer Vielzahl von Benchmarks mit unterschiedlichen Schwierigkeitsgraden. Unsere Methode reduziert die Anzahl der Ausgabetoken signifikant um fast 40 %, während die Genauigkeit der Schlussfolgerungen erhalten bleibt. Unser Code und unsere Daten werden in Kürze verfügbar sein.
English
Large Language Models (LLMs) have recently achieved remarkable progress by
leveraging Reinforcement Learning and extended Chain-of-Thought (CoT)
techniques. However, the challenge of performing efficient language
reasoning--especially during inference with extremely long outputs--has drawn
increasing attention from the research community. In this work, we propose a
dynamic ratio-based training pipeline that does not rely on sophisticated data
annotations or interpolation between multiple models. We continuously balance
the weights between the model's System-1 and System-2 data to eliminate
redundant reasoning processes while preserving the model's reasoning
capability. We validate our approach across models on DeepSeek-R1-Distill-7B
and DeepSeek-R1-Distill-14B and on a diverse set of benchmarks with varying
difficulty levels. Our method significantly reduces the number of output tokens
by nearly 40% while maintaining the accuracy of the reasoning. Our code and
data will be available soon.