Compresión de Cadenas de Razonamiento en LLMs mediante Entropía de Pasos
Compressing Chain-of-Thought in LLMs via Step Entropy
August 5, 2025
Autores: Zeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs) que utilizan el enfoque de Cadena de Pensamiento (CoT) destacan en el razonamiento complejo, pero generan procesos de pensamiento verbosos con una considerable redundancia, lo que conlleva mayores costos de inferencia y una reducción en la eficiencia. Introducimos un novedoso marco de compresión de CoT basado en la entropía de pasos, una métrica que cuantifica la contribución informativa de los pasos individuales de razonamiento para identificar la redundancia. A través de un análisis teórico y una extensa validación empírica en benchmarks de razonamiento matemático, demostramos que los pasos con baja entropía son altamente redundantes. Nuestros experimentos revelan que un sorprendente 80\% de los pasos intermedios de baja entropía pueden ser eliminados con una degradación mínima en la precisión de la respuesta final en los modelos DeepSeek-R1-7B, 14B y Qwen3-8B. Este hallazgo contrasta marcadamente con la eliminación aleatoria o de alta entropía, que perjudica gravemente el rendimiento del razonamiento. Basándonos en esto, proponemos una novedosa estrategia de entrenamiento en dos etapas que combina el Ajuste Fino Supervisado (SFT) y el aprendizaje por refuerzo mediante Optimización de Política Relativa en Grupo (GRPO). Este enfoque permite que los LLMs aprendan de manera autónoma a generar CoTs comprimidos durante la inferencia, incorporando estratégicamente tokens [SKIP]. Nuestro método mejora significativamente la eficiencia de inferencia de los LLMs mientras preserva rigurosamente la precisión, ofreciendo implicaciones profundas para la implementación práctica de los LLMs y una comprensión más profunda de las estructuras de razonamiento.
English
Large Language Models (LLMs) using Chain-of-Thought (CoT) prompting excel at
complex reasoning but generate verbose thought processes with considerable
redundancy, leading to increased inference costs and reduced efficiency. We
introduce a novel CoT compression framework based on step entropy, a metric
that quantifies the informational contribution of individual reasoning steps to
identify redundancy. Through theoretical analysis and extensive empirical
validation on mathematical reasoning benchmarks, we demonstrate that steps with
low entropy are indeed highly redundant. Our experiments reveal that an
astonishing 80\% of low-entropy intermediate steps can be pruned with minor
degradation in the final answer accuracy across DeepSeek-R1-7B, 14B and
Qwen3-8B. This finding sharply contrasts with random or high-entropy pruning,
which severely impairs reasoning performance. Building on this, we propose a
novel two-stage training strategy combining Supervised Fine-Tuning (SFT) and
Group Relative Policy Optimization (GRPO) reinforcement learning. This approach
enables LLMs to autonomously learn to generate compressed COTs during inference
by strategically incorporating [SKIP] tokens. Our method significantly enhances
LLM inference efficiency while rigorously preserving accuracy, offering
profound implications for practical LLM deployment and a deeper understanding
of reasoning structures.