ChatPaper.aiChatPaper

分布整合型シーケンス蒸留による高精度長文連鎖思考推論

Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning

January 14, 2026
著者: Shaotian Yan, Kaiyuan Liu, Chen Shen, Bing Wang, Sinan Fan, Jun Zhang, Yue Wu, Zheng Wang, Jieping Ye
cs.AI

要旨

本報告では、軽量でありながら高い能力を備えた完全オープンソースの推論モデル「DASD-4B-Thinking」を紹介します。本モデルは、数学・科学推論・コード生成といった難易度の高いベンチマークにおいて、同規模のオープンソースモデルの中でSOTA性能を達成し、いくつかの大規模モデルをも凌駕する結果を示しています。まず我々は、コミュニティで広く採用されている蒸留パラダイム――教師モデルが生成した回答に対するSFT(系列レベル蒸留とも呼ばれる)――を批判的に再検証します。この方式に沿った一連の最近の研究は、高い効率性と強力な実証性能を示しているものの、それらは主にSFTの視点に立脚しています。その結果、これらのアプローチはSFTデータフィルタリングのヒューリスティックな規則設計に偏重し、蒸留の本質的な原理――学生モデルが教師の完全な出力分布を学習し、その一般化能力を継承すること――を見過ごしがちです。具体的に、現在の手法には以下の3つの重大な限界があることを明らかにします:i) 教師の系列レベル分布の不適切な表現、ii) 教師の出力分布と学生の学習能力のミスアライメント、iii) 教師強制訓練と自己回帰推論の間で生じる曝露バイアス。総括すると、これらの欠点は蒸留プロセス全体を通じた明示的な教師-学生相互作用の体系的欠如を反映しており、蒸留の本質が十分に活かされていません。これらの課題に対処するため、我々は複数の手法的新機軸を提案し、それらを統合して強化された系列レベル蒸留トレーニングパイプラインを構築しました。特筆すべきは、DASD-4B-Thinkingがわずか44.8万訓練サンプルで競争力のある結果を達成した点です――これは既存のオープンソース取り組みの大多数が使用するデータ量よりも一桁少ない規模です。コミュニティ研究を支援するため、モデルと訓練データセットを公開します。
English
In this report, we introduce DASD-4B-Thinking, a lightweight yet highly capable, fully open-source reasoning model. It achieves SOTA performance among open-source models of comparable scale across challenging benchmarks in mathematics, scientific reasoning, and code generation -- even outperforming several larger models. We begin by critically reexamining a widely adopted distillation paradigm in the community: SFT on teacher-generated responses, also known as sequence-level distillation. Although a series of recent works following this scheme have demonstrated remarkable efficiency and strong empirical performance, they are primarily grounded in the SFT perspective. Consequently, these approaches focus predominantly on designing heuristic rules for SFT data filtering, while largely overlooking the core principle of distillation itself -- enabling the student model to learn the teacher's full output distribution so as to inherit its generalization capability. Specifically, we identify three critical limitations in current practice: i) Inadequate representation of the teacher's sequence-level distribution; ii) Misalignment between the teacher's output distribution and the student's learning capacity; and iii) Exposure bias arising from teacher-forced training versus autoregressive inference. In summary, these shortcomings reflect a systemic absence of explicit teacher-student interaction throughout the distillation process, leaving the essence of distillation underexploited. To address these issues, we propose several methodological innovations that collectively form an enhanced sequence-level distillation training pipeline. Remarkably, DASD-4B-Thinking obtains competitive results using only 448K training samples -- an order of magnitude fewer than those employed by most existing open-source efforts. To support community research, we publicly release our models and the training dataset.
PDF434January 16, 2026