Compression de la chaîne de pensée dans les LLM via l'entropie des étapes
Compressing Chain-of-Thought in LLMs via Step Entropy
August 5, 2025
papers.authors: Zeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) utilisant l'incitation en chaîne de pensée (Chain-of-Thought, CoT) excellent dans le raisonnement complexe, mais génèrent des processus de pensée verbeux avec une redondance considérable, entraînant des coûts d'inférence accrus et une efficacité réduite. Nous introduisons un nouveau cadre de compression CoT basé sur l'entropie des étapes, une métrique qui quantifie la contribution informationnelle des étapes de raisonnement individuelles pour identifier la redondance. Grâce à une analyse théorique et une validation empirique approfondie sur des benchmarks de raisonnement mathématique, nous démontrons que les étapes à faible entropie sont en effet hautement redondantes. Nos expériences révèlent qu'un étonnant 80 % des étapes intermédiaires à faible entropie peuvent être élaguées avec une dégradation mineure de la précision des réponses finales sur DeepSeek-R1-7B, 14B et Qwen3-8B. Cette observation contraste fortement avec l'élagage aléatoire ou à haute entropie, qui altère gravement les performances de raisonnement. Sur cette base, nous proposons une nouvelle stratégie d'entraînement en deux étapes combinant le réglage fin supervisé (Supervised Fine-Tuning, SFT) et l'optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO) en apprentissage par renforcement. Cette approche permet aux LLMs d'apprendre de manière autonome à générer des CoTs compressés lors de l'inférence en incorporant stratégiquement des jetons [SKIP]. Notre méthode améliore significativement l'efficacité de l'inférence des LLMs tout en préservant rigoureusement la précision, offrant des implications profondes pour le déploiement pratique des LLMs et une compréhension plus approfondie des structures de raisonnement.
English
Large Language Models (LLMs) using Chain-of-Thought (CoT) prompting excel at
complex reasoning but generate verbose thought processes with considerable
redundancy, leading to increased inference costs and reduced efficiency. We
introduce a novel CoT compression framework based on step entropy, a metric
that quantifies the informational contribution of individual reasoning steps to
identify redundancy. Through theoretical analysis and extensive empirical
validation on mathematical reasoning benchmarks, we demonstrate that steps with
low entropy are indeed highly redundant. Our experiments reveal that an
astonishing 80\% of low-entropy intermediate steps can be pruned with minor
degradation in the final answer accuracy across DeepSeek-R1-7B, 14B and
Qwen3-8B. This finding sharply contrasts with random or high-entropy pruning,
which severely impairs reasoning performance. Building on this, we propose a
novel two-stage training strategy combining Supervised Fine-Tuning (SFT) and
Group Relative Policy Optimization (GRPO) reinforcement learning. This approach
enables LLMs to autonomously learn to generate compressed COTs during inference
by strategically incorporating [SKIP] tokens. Our method significantly enhances
LLM inference efficiency while rigorously preserving accuracy, offering
profound implications for practical LLM deployment and a deeper understanding
of reasoning structures.