Compressie van Chain-of-Thought in LLM's via Stap Entropie
Compressing Chain-of-Thought in LLMs via Step Entropy
August 5, 2025
Auteurs: Zeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu
cs.AI
Samenvatting
Large Language Models (LLMs) die gebruikmaken van Chain-of-Thought (CoT) prompting blinken uit in complex redeneren, maar genereren uitgebreide denkprocessen met aanzienlijke redundantie, wat leidt tot hogere inferentiekosten en verminderde efficiëntie. Wij introduceren een nieuw CoT-compressiekader gebaseerd op stapentropie, een metriek die de informatieve bijdrage van individuele redeneerstappen kwantificeert om redundantie te identificeren. Door theoretische analyse en uitgebreide empirische validatie op wiskundige redeneerbenchmarks tonen we aan dat stappen met lage entropie inderdaad sterk redundant zijn. Onze experimenten laten zien dat een verbazingwekkende 80% van de tussenliggende stappen met lage entropie kan worden weggelaten met slechts minimale verslechtering in de nauwkeurigheid van het eindantwoord voor DeepSeek-R1-7B, 14B en Qwen3-8B. Dit resultaat staat in scherp contrast met willekeurige of hoge-entropie pruning, wat de redeneerprestaties ernstig aantast. Hierop voortbouwend stellen we een nieuwe tweefasige trainingsstrategie voor die Supervised Fine-Tuning (SFT) combineert met Group Relative Policy Optimization (GRPO) reinforcement learning. Deze aanpak stelt LLMs in staat om autonoom te leren om gecomprimeerde COTs te genereren tijdens inferentie door strategisch [SKIP]-tokens te incorporeren. Onze methode verbetert de inferentie-efficiëntie van LLMs aanzienlijk terwijl de nauwkeurigheid strikt behouden blijft, wat diepgaande implicaties heeft voor de praktische inzet van LLMs en een beter begrip van redeneerstructuren.
English
Large Language Models (LLMs) using Chain-of-Thought (CoT) prompting excel at
complex reasoning but generate verbose thought processes with considerable
redundancy, leading to increased inference costs and reduced efficiency. We
introduce a novel CoT compression framework based on step entropy, a metric
that quantifies the informational contribution of individual reasoning steps to
identify redundancy. Through theoretical analysis and extensive empirical
validation on mathematical reasoning benchmarks, we demonstrate that steps with
low entropy are indeed highly redundant. Our experiments reveal that an
astonishing 80\% of low-entropy intermediate steps can be pruned with minor
degradation in the final answer accuracy across DeepSeek-R1-7B, 14B and
Qwen3-8B. This finding sharply contrasts with random or high-entropy pruning,
which severely impairs reasoning performance. Building on this, we propose a
novel two-stage training strategy combining Supervised Fine-Tuning (SFT) and
Group Relative Policy Optimization (GRPO) reinforcement learning. This approach
enables LLMs to autonomously learn to generate compressed COTs during inference
by strategically incorporating [SKIP] tokens. Our method significantly enhances
LLM inference efficiency while rigorously preserving accuracy, offering
profound implications for practical LLM deployment and a deeper understanding
of reasoning structures.