TL;DR: Te Lang, Herweging voor Efficiënte LLM Redeneercompressie

Samenvatting

Large Language Models (LLMs) hebben recentelijk opmerkelijke vooruitgang geboekt door gebruik te maken van Reinforcement Learning en uitgebreide Chain-of-Thought (CoT)-technieken. De uitdaging om efficiënte taalredenering uit te voeren—met name tijdens inferentie met extreem lange uitvoeren—heeft echter steeds meer aandacht getrokken van de onderzoeksgemeenschap. In dit werk stellen we een dynamische, ratio-gebaseerde trainingspijplijn voor die niet afhankelijk is van geavanceerde data-annotaties of interpolatie tussen meerdere modellen. We balanceren continu de gewichten tussen de System-1- en System-2-data van het model om overbodige redeneringsprocessen te elimineren, terwijl de redeneercapaciteit van het model behouden blijft. We valideren onze aanpak op modellen zoals DeepSeek-R1-Distill-7B en DeepSeek-R1-Distill-14B en op een diverse set benchmarks met verschillende moeilijkheidsgraden. Onze methode reduceert het aantal uitvoertokens aanzienlijk met bijna 40%, terwijl de nauwkeurigheid van de redenering behouden blijft. Onze code en data zullen binnenkort beschikbaar zijn.

English

Large Language Models (LLMs) have recently achieved remarkable progress by leveraging Reinforcement Learning and extended Chain-of-Thought (CoT) techniques. However, the challenge of performing efficient language reasoning--especially during inference with extremely long outputs--has drawn increasing attention from the research community. In this work, we propose a dynamic ratio-based training pipeline that does not rely on sophisticated data annotations or interpolation between multiple models. We continuously balance the weights between the model's System-1 and System-2 data to eliminate redundant reasoning processes while preserving the model's reasoning capability. We validate our approach across models on DeepSeek-R1-Distill-7B and DeepSeek-R1-Distill-14B and on a diverse set of benchmarks with varying difficulty levels. Our method significantly reduces the number of output tokens by nearly 40% while maintaining the accuracy of the reasoning. Our code and data will be available soon.

TL;DR: Te Lang, Herweging voor Efficiënte LLM Redeneercompressie

TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Samenvatting

Support