Сжатие цепочки рассуждений в больших языковых моделях через энтропию шагов
Compressing Chain-of-Thought in LLMs via Step Entropy
August 5, 2025
Авторы: Zeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu
cs.AI
Аннотация
Крупные языковые модели (LLM), использующие метод Chain-of-Thought (CoT), демонстрируют выдающиеся результаты в сложных рассуждениях, но генерируют избыточно подробные мыслительные процессы с высокой степенью избыточности, что приводит к увеличению затрат на вывод и снижению эффективности. Мы представляем новый фреймворк сжатия CoT, основанный на энтропии шагов — метрике, которая количественно оценивает информационный вклад отдельных шагов рассуждения для выявления избыточности. Благодаря теоретическому анализу и обширной эмпирической проверке на бенчмарках математических рассуждений мы показываем, что шаги с низкой энтропией действительно являются высоко избыточными. Наши эксперименты показывают, что удивительные 80% промежуточных шагов с низкой энтропией могут быть удалены с минимальным ухудшением точности конечного ответа для моделей DeepSeek-R1-7B, 14B и Qwen3-8B. Этот результат резко контрастирует с удалением случайных или высокоэнтропийных шагов, которое значительно ухудшает качество рассуждений. На основе этого мы предлагаем новую двухэтапную стратегию обучения, сочетающую Supervised Fine-Tuning (SFT) и обучение с подкреплением методом Group Relative Policy Optimization (GRPO). Этот подход позволяет LLM автономно обучаться генерации сжатых CoT во время вывода, стратегически включая токены [SKIP]. Наш метод значительно повышает эффективность вывода LLM, строго сохраняя точность, что имеет важные последствия для практического развертывания LLM и углубленного понимания структур рассуждений.
English
Large Language Models (LLMs) using Chain-of-Thought (CoT) prompting excel at
complex reasoning but generate verbose thought processes with considerable
redundancy, leading to increased inference costs and reduced efficiency. We
introduce a novel CoT compression framework based on step entropy, a metric
that quantifies the informational contribution of individual reasoning steps to
identify redundancy. Through theoretical analysis and extensive empirical
validation on mathematical reasoning benchmarks, we demonstrate that steps with
low entropy are indeed highly redundant. Our experiments reveal that an
astonishing 80\% of low-entropy intermediate steps can be pruned with minor
degradation in the final answer accuracy across DeepSeek-R1-7B, 14B and
Qwen3-8B. This finding sharply contrasts with random or high-entropy pruning,
which severely impairs reasoning performance. Building on this, we propose a
novel two-stage training strategy combining Supervised Fine-Tuning (SFT) and
Group Relative Policy Optimization (GRPO) reinforcement learning. This approach
enables LLMs to autonomously learn to generate compressed COTs during inference
by strategically incorporating [SKIP] tokens. Our method significantly enhances
LLM inference efficiency while rigorously preserving accuracy, offering
profound implications for practical LLM deployment and a deeper understanding
of reasoning structures.