ChatPaper.aiChatPaper

Compressão de Cadeia de Pensamento em LLMs via Entropia de Passos

Compressing Chain-of-Thought in LLMs via Step Entropy

August 5, 2025
Autores: Zeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) que utilizam o método de Chain-of-Thought (CoT) destacam-se no raciocínio complexo, mas geram processos de pensamento verbosos com considerável redundância, resultando em custos de inferência mais elevados e eficiência reduzida. Introduzimos um novo framework de compressão de CoT baseado na entropia de etapas, uma métrica que quantifica a contribuição informacional de etapas individuais de raciocínio para identificar redundâncias. Por meio de análise teórica e validação empírica extensa em benchmarks de raciocínio matemático, demonstramos que etapas com baixa entropia são de fato altamente redundantes. Nossos experimentos revelam que impressionantes 80\% das etapas intermediárias de baixa entropia podem ser podadas com mínima degradação na precisão da resposta final em modelos como DeepSeek-R1-7B, 14B e Qwen3-8B. Esse achado contrasta fortemente com a poda aleatória ou de alta entropia, que prejudica severamente o desempenho do raciocínio. Com base nisso, propomos uma nova estratégia de treinamento em duas etapas que combina Ajuste Fino Supervisionado (SFT) e Otimização de Política Relativa em Grupo (GRPO) com aprendizado por reforço. Essa abordagem permite que os LLMs aprendam autonomamente a gerar CoTs comprimidos durante a inferência, incorporando estrategicamente tokens [SKIP]. Nosso método melhora significativamente a eficiência da inferência em LLMs enquanto preserva rigorosamente a precisão, oferecendo implicações profundas para a implantação prática de LLMs e uma compreensão mais aprofundada das estruturas de raciocínio.
English
Large Language Models (LLMs) using Chain-of-Thought (CoT) prompting excel at complex reasoning but generate verbose thought processes with considerable redundancy, leading to increased inference costs and reduced efficiency. We introduce a novel CoT compression framework based on step entropy, a metric that quantifies the informational contribution of individual reasoning steps to identify redundancy. Through theoretical analysis and extensive empirical validation on mathematical reasoning benchmarks, we demonstrate that steps with low entropy are indeed highly redundant. Our experiments reveal that an astonishing 80\% of low-entropy intermediate steps can be pruned with minor degradation in the final answer accuracy across DeepSeek-R1-7B, 14B and Qwen3-8B. This finding sharply contrasts with random or high-entropy pruning, which severely impairs reasoning performance. Building on this, we propose a novel two-stage training strategy combining Supervised Fine-Tuning (SFT) and Group Relative Policy Optimization (GRPO) reinforcement learning. This approach enables LLMs to autonomously learn to generate compressed COTs during inference by strategically incorporating [SKIP] tokens. Our method significantly enhances LLM inference efficiency while rigorously preserving accuracy, offering profound implications for practical LLM deployment and a deeper understanding of reasoning structures.
PDF72August 12, 2025