TL;DR: Te Lang, Herweging voor Efficiënte LLM Redeneercompressie
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression
June 3, 2025
Auteurs: Zhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu
cs.AI
Samenvatting
Large Language Models (LLMs) hebben recentelijk opmerkelijke vooruitgang geboekt door gebruik te maken van Reinforcement Learning en uitgebreide Chain-of-Thought (CoT)-technieken. De uitdaging om efficiënte taalredenering uit te voeren—met name tijdens inferentie met extreem lange uitvoeren—heeft echter steeds meer aandacht getrokken van de onderzoeksgemeenschap. In dit werk stellen we een dynamische, ratio-gebaseerde trainingspijplijn voor die niet afhankelijk is van geavanceerde data-annotaties of interpolatie tussen meerdere modellen. We balanceren continu de gewichten tussen de System-1- en System-2-data van het model om overbodige redeneringsprocessen te elimineren, terwijl de redeneercapaciteit van het model behouden blijft. We valideren onze aanpak op modellen zoals DeepSeek-R1-Distill-7B en DeepSeek-R1-Distill-14B en op een diverse set benchmarks met verschillende moeilijkheidsgraden. Onze methode reduceert het aantal uitvoertokens aanzienlijk met bijna 40%, terwijl de nauwkeurigheid van de redenering behouden blijft. Onze code en data zullen binnenkort beschikbaar zijn.
English
Large Language Models (LLMs) have recently achieved remarkable progress by
leveraging Reinforcement Learning and extended Chain-of-Thought (CoT)
techniques. However, the challenge of performing efficient language
reasoning--especially during inference with extremely long outputs--has drawn
increasing attention from the research community. In this work, we propose a
dynamic ratio-based training pipeline that does not rely on sophisticated data
annotations or interpolation between multiple models. We continuously balance
the weights between the model's System-1 and System-2 data to eliminate
redundant reasoning processes while preserving the model's reasoning
capability. We validate our approach across models on DeepSeek-R1-Distill-7B
and DeepSeek-R1-Distill-14B and on a diverse set of benchmarks with varying
difficulty levels. Our method significantly reduces the number of output tokens
by nearly 40% while maintaining the accuracy of the reasoning. Our code and
data will be available soon.