ChatPaper.aiChatPaper

우수한 장문 CoT 추론을 위한 분포 정렬 시퀀스 증류

Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning

January 14, 2026
저자: Shaotian Yan, Kaiyuan Liu, Chen Shen, Bing Wang, Sinan Fan, Jun Zhang, Yue Wu, Zheng Wang, Jieping Ye
cs.AI

초록

본 보고서에서는 경량이면서도 높은 성능을 지닌 완전 오픈소스 추론 모델인 DASD-4B-Thinking을 소개합니다. 이 모델은 수학, 과학적 추론, 코드 생성 분야의 도전적인 벤치마크에서 유사한 규모의 오픈소스 모델들 가운데 SOTA 성능을 달성했으며, 일부 더 큰 모델들보다도 뛰어난 성능을 보여줍니다. 우리는 먼저 커뮤니티에서 광범위하게 채택된 하나의 증류 패러다임, 즉 교사 모델이 생성한 응답에 대한 SFT(시퀀스 수준 증류라고도 불림)를 비판적으로 재검토합니다. 이 방식을 따른 일련의 최근 연구들이 놀라운 효율성과 강력한 경험적 성능을 입증했지만, 이러한 접근법은 주로 SFT 관점에 기반을 두고 있습니다. 그 결과, 이러한 방법론들은 SFT 데이터 필터링을 위한 휴리스틱 규칙 설계에 주로 집중하는 반면, 증류의 핵심 원리인 학생 모델이 교사 모델의 전체 출력 분포를 학습하여 일반화 능력을 계승하게 하는 본질은 크게 간과되고 있습니다. 구체적으로, 우리는 현재 관행에서 세 가지 중요한 한계를 확인했습니다: i) 교사 모델의 시퀀스 수준 분포를 충분히 표현하지 못함, ii) 교사 모델의 출력 분포와 학생 모델의 학습 능력 간의 불일치, iii) Teacher-Forced 학습과 자동회귀 추론 사이에서 발생하는 Exposure Bias. 요약하면, 이러한 단점들은 증류 과정 전반에 걸쳐 명시적인 교사-학생 상호작용이 체계적으로 부재함을 보여주며, 증류의 본질이 충분히 활용되지 못하고 있음을 나타냅니다. 이러한 문제들을 해결하기 위해, 우리는 향상된 시퀀스 수준 증류 학습 파이프라인을 구성하는 몇 가지 방법론적 혁신을 제안합니다. 주목할 만하게도, DASD-4B-Thinking은 기존 대부분의 오픈소스 노력들이 사용하는 데이터 양보다 한 자릿수 적은 448K개의 훈련 샘플만으로도 경쟁력 있는 결과를 얻었습니다. 커뮤니티 연구를 지원하기 위해, 우리는 모델과 훈련 데이터셋을 공개합니다.
English
In this report, we introduce DASD-4B-Thinking, a lightweight yet highly capable, fully open-source reasoning model. It achieves SOTA performance among open-source models of comparable scale across challenging benchmarks in mathematics, scientific reasoning, and code generation -- even outperforming several larger models. We begin by critically reexamining a widely adopted distillation paradigm in the community: SFT on teacher-generated responses, also known as sequence-level distillation. Although a series of recent works following this scheme have demonstrated remarkable efficiency and strong empirical performance, they are primarily grounded in the SFT perspective. Consequently, these approaches focus predominantly on designing heuristic rules for SFT data filtering, while largely overlooking the core principle of distillation itself -- enabling the student model to learn the teacher's full output distribution so as to inherit its generalization capability. Specifically, we identify three critical limitations in current practice: i) Inadequate representation of the teacher's sequence-level distribution; ii) Misalignment between the teacher's output distribution and the student's learning capacity; and iii) Exposure bias arising from teacher-forced training versus autoregressive inference. In summary, these shortcomings reflect a systemic absence of explicit teacher-student interaction throughout the distillation process, leaving the essence of distillation underexploited. To address these issues, we propose several methodological innovations that collectively form an enhanced sequence-level distillation training pipeline. Remarkably, DASD-4B-Thinking obtains competitive results using only 448K training samples -- an order of magnitude fewer than those employed by most existing open-source efforts. To support community research, we publicly release our models and the training dataset.
PDF434January 16, 2026