TL;DR: Troppo lungo, applica il ri-ponderamento per una compressione efficiente del ragionamento nei LLM

Abstract

I Large Language Model (LLM) hanno recentemente ottenuto progressi significativi sfruttando il Reinforcement Learning e tecniche avanzate di Chain-of-Thought (CoT). Tuttavia, la sfida di eseguire un ragionamento linguistico efficiente—specialmente durante l'inferenza con output estremamente lunghi—ha attirato un'attenzione crescente da parte della comunità di ricerca. In questo lavoro, proponiamo una pipeline di addestramento basata su rapporti dinamici che non si affida a annotazioni di dati sofisticate o all'interpolazione tra più modelli. Bilanciamo continuamente i pesi tra i dati del Sistema-1 e del Sistema-2 del modello per eliminare i processi di ragionamento ridondanti, preservando al contempo la capacità di ragionamento del modello. Validiamo il nostro approccio su modelli come DeepSeek-R1-Distill-7B e DeepSeek-R1-Distill-14B e su un insieme diversificato di benchmark con livelli di difficoltà variabili. Il nostro metodo riduce significativamente il numero di token di output di quasi il 40%, mantenendo l'accuratezza del ragionamento. Il nostro codice e i nostri dati saranno presto disponibili.

English

Large Language Models (LLMs) have recently achieved remarkable progress by leveraging Reinforcement Learning and extended Chain-of-Thought (CoT) techniques. However, the challenge of performing efficient language reasoning--especially during inference with extremely long outputs--has drawn increasing attention from the research community. In this work, we propose a dynamic ratio-based training pipeline that does not rely on sophisticated data annotations or interpolation between multiple models. We continuously balance the weights between the model's System-1 and System-2 data to eliminate redundant reasoning processes while preserving the model's reasoning capability. We validate our approach across models on DeepSeek-R1-Distill-7B and DeepSeek-R1-Distill-14B and on a diverse set of benchmarks with varying difficulty levels. Our method significantly reduces the number of output tokens by nearly 40% while maintaining the accuracy of the reasoning. Our code and data will be available soon.

TL;DR: Troppo lungo, applica il ri-ponderamento per una compressione efficiente del ragionamento nei LLM

TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Abstract

Support