Distributie-uitgelijnde Sequentie-Distillatie voor Superieure Lange-Keten Redenering
Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning
January 14, 2026
Auteurs: Shaotian Yan, Kaiyuan Liu, Chen Shen, Bing Wang, Sinan Fan, Jun Zhang, Yue Wu, Zheng Wang, Jieping Ye
cs.AI
Samenvatting
In dit rapport introduceren we DASD-4B-Thinking, een lichtgewicht maar zeer capabel, volledig open-source redeneermodel. Het behaalt state-of-the-art (SOTA) prestaties onder open-source modellen van vergelijkbare omvang op uitdagende benchmarks voor wiskunde, wetenschappelijk redeneren en codegeneratie – en overtreft zelfs verschillende grotere modellen. We beginnen met een kritische herevaluatie van een breed geadopteerd distillatieparadigma in de gemeenschap: Supervised Fine-Tuning (SFT) op door de leraar gegenereerde antwoorden, ook wel sequence-level distillatie genoemd. Hoewel een reeks recente werken die dit schema volgen opmerkelijke efficiëntie en sterke empirische prestaties hebben aangetoond, zijn deze voornamelijk geworteld in het SFT-perspectief. Dientengevolge richten deze benaderingen zich overwegend op het ontwerpen van heuristische regels voor het filteren van SFT-gegevens, terwijl de kernprincipes van distillatie zelf – het in staat stellen van het studentmodel om de volledige outputverdeling van de leraar te leren om diens generalisatievermogen te erven – grotendeels over het hoofd worden gezien. Concreet identificeren we drie kritieke beperkingen in de huidige praktijk: i) Onvoldoende representatie van de sequence-level verdeling van de leraar; ii) Een mismatch tussen de outputverdeling van de leraar en het leervermogen van de student; en iii) Exposure bias die ontstaat door teacher-forced training versus autoregressieve inferentie. Samengevat reflecteren deze tekortkomingen een systemische afwezigheid van expliciete interactie tussen leraar en student gedurende het distillatieproces, waardoor de essentie van distillatie onderbenut blijft. Om deze problemen aan te pakken, stellen we verschillende methodologische innovaties voor die gezamenlijk een verbeterde trainingspipeline voor sequence-level distillatie vormen. Opmerkelijk is dat DASD-4B-Thinking competitieve resultaten behaalt met slechts 448K trainingsvoorbeelden – een orde van grootte minder dan wat door de meeste bestaande open-source inspanningen wordt gebruikt. Om gemeenschapsonderzoek te ondersteunen, maken we onze modellen en de trainingsdataset openbaar beschikbaar.
English
In this report, we introduce DASD-4B-Thinking, a lightweight yet highly capable, fully open-source reasoning model. It achieves SOTA performance among open-source models of comparable scale across challenging benchmarks in mathematics, scientific reasoning, and code generation -- even outperforming several larger models. We begin by critically reexamining a widely adopted distillation paradigm in the community: SFT on teacher-generated responses, also known as sequence-level distillation. Although a series of recent works following this scheme have demonstrated remarkable efficiency and strong empirical performance, they are primarily grounded in the SFT perspective. Consequently, these approaches focus predominantly on designing heuristic rules for SFT data filtering, while largely overlooking the core principle of distillation itself -- enabling the student model to learn the teacher's full output distribution so as to inherit its generalization capability. Specifically, we identify three critical limitations in current practice: i) Inadequate representation of the teacher's sequence-level distribution; ii) Misalignment between the teacher's output distribution and the student's learning capacity; and iii) Exposure bias arising from teacher-forced training versus autoregressive inference. In summary, these shortcomings reflect a systemic absence of explicit teacher-student interaction throughout the distillation process, leaving the essence of distillation underexploited. To address these issues, we propose several methodological innovations that collectively form an enhanced sequence-level distillation training pipeline. Remarkably, DASD-4B-Thinking obtains competitive results using only 448K training samples -- an order of magnitude fewer than those employed by most existing open-source efforts. To support community research, we publicly release our models and the training dataset.