TL;DR: Demasiado largo, reajuste de pesos para la compresión eficiente del razonamiento en LLM

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado recientemente avances notables al aprovechar el Aprendizaje por Refuerzo y técnicas extendidas de Cadena de Pensamiento (CoT, por sus siglas en inglés). Sin embargo, el desafío de realizar razonamiento lingüístico eficiente—especialmente durante la inferencia con salidas extremadamente largas—ha captado una atención creciente por parte de la comunidad investigadora. En este trabajo, proponemos un pipeline de entrenamiento basado en ratios dinámicos que no depende de anotaciones de datos sofisticadas ni de interpolación entre múltiples modelos. Equilibramos continuamente los pesos entre los datos del Sistema 1 y el Sistema 2 del modelo para eliminar procesos de razonamiento redundantes, preservando al mismo tiempo la capacidad de razonamiento del modelo. Validamos nuestro enfoque en los modelos DeepSeek-R1-Distill-7B y DeepSeek-R1-Distill-14B, así como en un conjunto diverso de benchmarks con niveles de dificultad variables. Nuestro método reduce significativamente el número de tokens de salida en casi un 40%, manteniendo la precisión del razonamiento. Nuestro código y datos estarán disponibles próximamente.

English

Large Language Models (LLMs) have recently achieved remarkable progress by leveraging Reinforcement Learning and extended Chain-of-Thought (CoT) techniques. However, the challenge of performing efficient language reasoning--especially during inference with extremely long outputs--has drawn increasing attention from the research community. In this work, we propose a dynamic ratio-based training pipeline that does not rely on sophisticated data annotations or interpolation between multiple models. We continuously balance the weights between the model's System-1 and System-2 data to eliminate redundant reasoning processes while preserving the model's reasoning capability. We validate our approach across models on DeepSeek-R1-Distill-7B and DeepSeek-R1-Distill-14B and on a diverse set of benchmarks with varying difficulty levels. Our method significantly reduces the number of output tokens by nearly 40% while maintaining the accuracy of the reasoning. Our code and data will be available soon.

TL;DR: Demasiado largo, reajuste de pesos para la compresión eficiente del razonamiento en LLM

TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Resumen

Support