ChatPaper.aiChatPaper

TL;DR: Zu lang, Gewichtung neu anpassen für effiziente LLM-Rationalkompression

TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

June 3, 2025
Autoren: Zhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben in letzter Zeit bemerkenswerte Fortschritte erzielt, indem sie Verstärkungslernen und erweiterte Chain-of-Thought (CoT)-Techniken nutzen. Die Herausforderung, effiziente Sprachschlussfolgerungen durchzuführen – insbesondere während der Inferenz mit extrem langen Ausgaben – hat jedoch zunehmend die Aufmerksamkeit der Forschungsgemeinschaft auf sich gezogen. In dieser Arbeit schlagen wir eine dynamische, verhältnisbasierte Trainingspipeline vor, die nicht auf aufwendige Datenannotationen oder Interpolationen zwischen mehreren Modellen angewiesen ist. Wir balancieren kontinuierlich die Gewichte zwischen den System-1- und System-2-Daten des Modells, um redundante Schlussfolgerungsprozesse zu eliminieren, während die Schlussfolgerungsfähigkeit des Modells erhalten bleibt. Wir validieren unseren Ansatz an Modellen wie DeepSeek-R1-Distill-7B und DeepSeek-R1-Distill-14B sowie an einer Vielzahl von Benchmarks mit unterschiedlichen Schwierigkeitsgraden. Unsere Methode reduziert die Anzahl der Ausgabetoken signifikant um fast 40 %, während die Genauigkeit der Schlussfolgerungen erhalten bleibt. Unser Code und unsere Daten werden in Kürze verfügbar sein.
English
Large Language Models (LLMs) have recently achieved remarkable progress by leveraging Reinforcement Learning and extended Chain-of-Thought (CoT) techniques. However, the challenge of performing efficient language reasoning--especially during inference with extremely long outputs--has drawn increasing attention from the research community. In this work, we propose a dynamic ratio-based training pipeline that does not rely on sophisticated data annotations or interpolation between multiple models. We continuously balance the weights between the model's System-1 and System-2 data to eliminate redundant reasoning processes while preserving the model's reasoning capability. We validate our approach across models on DeepSeek-R1-Distill-7B and DeepSeek-R1-Distill-14B and on a diverse set of benchmarks with varying difficulty levels. Our method significantly reduces the number of output tokens by nearly 40% while maintaining the accuracy of the reasoning. Our code and data will be available soon.
PDF22June 4, 2025