Distilación de Secuencias con Alineación de Distribución para un Razonamiento Long-CoT Superior
Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning
January 14, 2026
Autores: Shaotian Yan, Kaiyuan Liu, Chen Shen, Bing Wang, Sinan Fan, Jun Zhang, Yue Wu, Zheng Wang, Jieping Ye
cs.AI
Resumen
En este informe, presentamos DASD-4B-Thinking, un modelo de razonamiento ligero pero altamente competente y completamente de código abierto. Logra un rendimiento de vanguardia (SOTA) entre los modelos de código abierto de escala comparable en benchmarks desafiantes de matemáticas, razonamiento científico y generación de código, superando incluso a varios modelos más grandes. Comenzamos reexaminando críticamente un paradigma de destilación ampliamente adoptado en la comunidad: el Fine-Tuning Supervisado (SFT) en respuestas generadas por el profesor, también conocido como destilación a nivel de secuencia. Aunque una serie de trabajos recientes que siguen este esquema han demostrado una eficiencia notable y un fuerte rendimiento empírico, se basan principalmente en la perspectiva del SFT. En consecuencia, estos enfoques se centran predominantemente en diseñar reglas heurísticas para el filtrado de datos de SFT, mientras que pasan por alto en gran medida el principio central de la destilación en sí: permitir que el modelo estudiante aprenda la distribución completa de salida del profesor para heredar su capacidad de generalización. Específicamente, identificamos tres limitaciones críticas en la práctica actual: i) Representación inadecuada de la distribución a nivel de secuencia del profesor; ii) Desalineación entre la distribución de salida del profesor y la capacidad de aprendizaje del estudiante; y iii) Sesgo de exposición que surge del entrenamiento con forzamiento del profesor frente a la inferencia autoregresiva. En resumen, estas deficiencias reflejan una ausencia sistémica de interacción explícita entre profesor y estudiante a lo largo del proceso de destilación, dejando la esencia de la destilación subexplotada. Para abordar estos problemas, proponemos varias innovaciones metodológicas que, en conjunto, forman una canalización de entrenamiento de destilación a nivel de secuencia mejorada. Notablemente, DASD-4B-Thinking obtiene resultados competitivos utilizando solo 448K muestras de entrenamiento, un orden de magnitud menos que las empleadas por la mayoría de los esfuerzos de código abierto existentes. Para apoyar la investigación comunitaria, publicamos abiertamente nuestros modelos y el conjunto de datos de entrenamiento.
English
In this report, we introduce DASD-4B-Thinking, a lightweight yet highly capable, fully open-source reasoning model. It achieves SOTA performance among open-source models of comparable scale across challenging benchmarks in mathematics, scientific reasoning, and code generation -- even outperforming several larger models. We begin by critically reexamining a widely adopted distillation paradigm in the community: SFT on teacher-generated responses, also known as sequence-level distillation. Although a series of recent works following this scheme have demonstrated remarkable efficiency and strong empirical performance, they are primarily grounded in the SFT perspective. Consequently, these approaches focus predominantly on designing heuristic rules for SFT data filtering, while largely overlooking the core principle of distillation itself -- enabling the student model to learn the teacher's full output distribution so as to inherit its generalization capability. Specifically, we identify three critical limitations in current practice: i) Inadequate representation of the teacher's sequence-level distribution; ii) Misalignment between the teacher's output distribution and the student's learning capacity; and iii) Exposure bias arising from teacher-forced training versus autoregressive inference. In summary, these shortcomings reflect a systemic absence of explicit teacher-student interaction throughout the distillation process, leaving the essence of distillation underexploited. To address these issues, we propose several methodological innovations that collectively form an enhanced sequence-level distillation training pipeline. Remarkably, DASD-4B-Thinking obtains competitive results using only 448K training samples -- an order of magnitude fewer than those employed by most existing open-source efforts. To support community research, we publicly release our models and the training dataset.