Compressione del Ragionamento a Catena nei LLM tramite Entropia dei Passaggi
Compressing Chain-of-Thought in LLMs via Step Entropy
August 5, 2025
Autori: Zeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) che utilizzano il prompting a catena di pensiero (CoT) eccellono nel ragionamento complesso, ma generano processi di pensiero prolissi con una notevole ridondanza, portando a maggiori costi di inferenza e a una ridotta efficienza. Introduciamo un nuovo framework di compressione CoT basato sull'entropia dei passaggi, una metrica che quantifica il contributo informativo dei singoli passaggi di ragionamento per identificare la ridondanza. Attraverso un'analisi teorica e una vasta validazione empirica su benchmark di ragionamento matematico, dimostriamo che i passaggi con bassa entropia sono effettivamente altamente ridondanti. I nostri esperimenti rivelano che un sorprendente 80\% dei passaggi intermedi a bassa entropia può essere rimosso con un deterioramento minimo dell'accuratezza della risposta finale su DeepSeek-R1-7B, 14B e Qwen3-8B. Questo risultato contrasta nettamente con la rimozione casuale o ad alta entropia, che compromette gravemente le prestazioni di ragionamento. Sulla base di ciò, proponiamo una nuova strategia di addestramento in due fasi che combina il fine-tuning supervisionato (SFT) e l'ottimizzazione delle politiche relative di gruppo (GRPO) con apprendimento per rinforzo. Questo approccio consente agli LLM di apprendere autonomamente a generare CoT compressi durante l'inferenza incorporando strategicamente token [SKIP]. Il nostro metodo migliora significativamente l'efficienza dell'inferenza degli LLM preservando rigorosamente l'accuratezza, offrendo profonde implicazioni per il dispiegamento pratico degli LLM e una comprensione più approfondita delle strutture di ragionamento.
English
Large Language Models (LLMs) using Chain-of-Thought (CoT) prompting excel at
complex reasoning but generate verbose thought processes with considerable
redundancy, leading to increased inference costs and reduced efficiency. We
introduce a novel CoT compression framework based on step entropy, a metric
that quantifies the informational contribution of individual reasoning steps to
identify redundancy. Through theoretical analysis and extensive empirical
validation on mathematical reasoning benchmarks, we demonstrate that steps with
low entropy are indeed highly redundant. Our experiments reveal that an
astonishing 80\% of low-entropy intermediate steps can be pruned with minor
degradation in the final answer accuracy across DeepSeek-R1-7B, 14B and
Qwen3-8B. This finding sharply contrasts with random or high-entropy pruning,
which severely impairs reasoning performance. Building on this, we propose a
novel two-stage training strategy combining Supervised Fine-Tuning (SFT) and
Group Relative Policy Optimization (GRPO) reinforcement learning. This approach
enables LLMs to autonomously learn to generate compressed COTs during inference
by strategically incorporating [SKIP] tokens. Our method significantly enhances
LLM inference efficiency while rigorously preserving accuracy, offering
profound implications for practical LLM deployment and a deeper understanding
of reasoning structures.