TL;DR: Troppo lungo, applica il ri-ponderamento per una compressione efficiente del ragionamento nei LLM
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression
June 3, 2025
Autori: Zhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu
cs.AI
Abstract
I Large Language Model (LLM) hanno recentemente ottenuto progressi significativi sfruttando il Reinforcement Learning e tecniche avanzate di Chain-of-Thought (CoT). Tuttavia, la sfida di eseguire un ragionamento linguistico efficiente—specialmente durante l'inferenza con output estremamente lunghi—ha attirato un'attenzione crescente da parte della comunità di ricerca. In questo lavoro, proponiamo una pipeline di addestramento basata su rapporti dinamici che non si affida a annotazioni di dati sofisticate o all'interpolazione tra più modelli. Bilanciamo continuamente i pesi tra i dati del Sistema-1 e del Sistema-2 del modello per eliminare i processi di ragionamento ridondanti, preservando al contempo la capacità di ragionamento del modello. Validiamo il nostro approccio su modelli come DeepSeek-R1-Distill-7B e DeepSeek-R1-Distill-14B e su un insieme diversificato di benchmark con livelli di difficoltà variabili. Il nostro metodo riduce significativamente il numero di token di output di quasi il 40%, mantenendo l'accuratezza del ragionamento. Il nostro codice e i nostri dati saranno presto disponibili.
English
Large Language Models (LLMs) have recently achieved remarkable progress by
leveraging Reinforcement Learning and extended Chain-of-Thought (CoT)
techniques. However, the challenge of performing efficient language
reasoning--especially during inference with extremely long outputs--has drawn
increasing attention from the research community. In this work, we propose a
dynamic ratio-based training pipeline that does not rely on sophisticated data
annotations or interpolation between multiple models. We continuously balance
the weights between the model's System-1 and System-2 data to eliminate
redundant reasoning processes while preserving the model's reasoning
capability. We validate our approach across models on DeepSeek-R1-Distill-7B
and DeepSeek-R1-Distill-14B and on a diverse set of benchmarks with varying
difficulty levels. Our method significantly reduces the number of output tokens
by nearly 40% while maintaining the accuracy of the reasoning. Our code and
data will be available soon.