ChatPaper.aiChatPaper

Komprimierung von Chain-of-Thought in LLMs durch Schrittentropie

Compressing Chain-of-Thought in LLMs via Step Entropy

August 5, 2025
papers.authors: Zeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu
cs.AI

papers.abstract

Große Sprachmodelle (LLMs), die Chain-of-Thought (CoT)-Prompting verwenden, zeichnen sich durch komplexes logisches Denken aus, erzeugen jedoch ausführliche Denkprozesse mit erheblicher Redundanz, was zu erhöhten Inferenzkosten und reduzierter Effizienz führt. Wir stellen ein neuartiges CoT-Kompressionsframework vor, das auf der Schrittentropie basiert, einer Metrik, die den Informationsbeitrag einzelner Denkschritte quantifiziert, um Redundanz zu identifizieren. Durch theoretische Analysen und umfangreiche empirische Validierung auf mathematischen Denkbenchmarks zeigen wir, dass Schritte mit niedriger Entropie tatsächlich stark redundant sind. Unsere Experimente offenbaren, dass erstaunliche 80 % der Zwischenschritte mit niedriger Entropie entfernt werden können, ohne die Genauigkeit der Endergebnisse bei DeepSeek-R1-7B, 14B und Qwen3-8B wesentlich zu beeinträchtigen. Diese Erkenntnis steht in starkem Kontrast zu zufälliger oder hoch-entropischer Reduktion, die die Denkleistung erheblich verschlechtert. Aufbauend darauf schlagen wir eine neuartige zweistufige Trainingsstrategie vor, die Supervised Fine-Tuning (SFT) und Group Relative Policy Optimization (GRPO)-Reinforcement Learning kombiniert. Dieser Ansatz ermöglicht es LLMs, autonom zu lernen, komprimierte COTs während der Inferenz zu generieren, indem strategisch [SKIP]-Tokens eingefügt werden. Unsere Methode verbessert die Inferenzeffizienz von LLMs signifikant, während die Genauigkeit rigoros erhalten bleibt, und bietet tiefgreifende Implikationen für die praktische Anwendung von LLMs sowie ein besseres Verständnis von Denkstrukturen.
English
Large Language Models (LLMs) using Chain-of-Thought (CoT) prompting excel at complex reasoning but generate verbose thought processes with considerable redundancy, leading to increased inference costs and reduced efficiency. We introduce a novel CoT compression framework based on step entropy, a metric that quantifies the informational contribution of individual reasoning steps to identify redundancy. Through theoretical analysis and extensive empirical validation on mathematical reasoning benchmarks, we demonstrate that steps with low entropy are indeed highly redundant. Our experiments reveal that an astonishing 80\% of low-entropy intermediate steps can be pruned with minor degradation in the final answer accuracy across DeepSeek-R1-7B, 14B and Qwen3-8B. This finding sharply contrasts with random or high-entropy pruning, which severely impairs reasoning performance. Building on this, we propose a novel two-stage training strategy combining Supervised Fine-Tuning (SFT) and Group Relative Policy Optimization (GRPO) reinforcement learning. This approach enables LLMs to autonomously learn to generate compressed COTs during inference by strategically incorporating [SKIP] tokens. Our method significantly enhances LLM inference efficiency while rigorously preserving accuracy, offering profound implications for practical LLM deployment and a deeper understanding of reasoning structures.
PDF72August 12, 2025