TL;DR: Demasiado largo, reajuste de pesos para la compresión eficiente del razonamiento en LLM
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression
June 3, 2025
Autores: Zhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado recientemente avances notables al aprovechar el Aprendizaje por Refuerzo y técnicas extendidas de Cadena de Pensamiento (CoT, por sus siglas en inglés). Sin embargo, el desafío de realizar razonamiento lingüístico eficiente—especialmente durante la inferencia con salidas extremadamente largas—ha captado una atención creciente por parte de la comunidad investigadora. En este trabajo, proponemos un pipeline de entrenamiento basado en ratios dinámicos que no depende de anotaciones de datos sofisticadas ni de interpolación entre múltiples modelos. Equilibramos continuamente los pesos entre los datos del Sistema 1 y el Sistema 2 del modelo para eliminar procesos de razonamiento redundantes, preservando al mismo tiempo la capacidad de razonamiento del modelo. Validamos nuestro enfoque en los modelos DeepSeek-R1-Distill-7B y DeepSeek-R1-Distill-14B, así como en un conjunto diverso de benchmarks con niveles de dificultad variables. Nuestro método reduce significativamente el número de tokens de salida en casi un 40%, manteniendo la precisión del razonamiento. Nuestro código y datos estarán disponibles próximamente.
English
Large Language Models (LLMs) have recently achieved remarkable progress by
leveraging Reinforcement Learning and extended Chain-of-Thought (CoT)
techniques. However, the challenge of performing efficient language
reasoning--especially during inference with extremely long outputs--has drawn
increasing attention from the research community. In this work, we propose a
dynamic ratio-based training pipeline that does not rely on sophisticated data
annotations or interpolation between multiple models. We continuously balance
the weights between the model's System-1 and System-2 data to eliminate
redundant reasoning processes while preserving the model's reasoning
capability. We validate our approach across models on DeepSeek-R1-Distill-7B
and DeepSeek-R1-Distill-14B and on a diverse set of benchmarks with varying
difficulty levels. Our method significantly reduces the number of output tokens
by nearly 40% while maintaining the accuracy of the reasoning. Our code and
data will be available soon.