ChatPaper.aiChatPaper

T3D: 직접 판별 최적화를 통한 궤적 자기 증류 기반 소수 단계 확산 언어 모델

T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization

February 12, 2026
저자: Tunyu Zhang, Xinxi Zhang, Ligong Han, Haizhou Shi, Xiaoxiao He, Zhuowei Li, Hao Wang, Kai Xu, Akash Srivastava, Hao Wang, Vladimir Pavlovic, Dimitris N. Metaxas
cs.AI

초록

확산 대형 언어 모델(DLLM)은 여러 토큰을 병렬로 디코딩하여 빠른 텍스트 생성을 가능하게 할 잠재력을 지닙니다. 그러나 실제로는 많은 개선 단계가 필요하기 때문에 추론 효율이 제한되며, 단계 수를 과감하게 줄이면 생성 품질이 현저히 저하됩니다. 이를 완화하기 위해 우리는 모델 자체의 생성 궤적을 증류하여 적은 단계의 디코딩 성능을 향상시키는 궤적 자기 증류 프레임워크를 제안합니다. 모드 추적형 증류를 촉진하고 학생 모델이 높은 확률의 교사 모드에 집중하도록 유도하는 역-KL 목적 함수인 직접 판별 최적화(DDO)를 통합하였습니다. 벤치마크에서 우리의 접근법은 제한된 단계 예산 하에서 강력한 적은 단계 베이스라인과 표준 학습을 지속적으로 능가했습니다. 전체 단계 디코딩이 여전히 우수하지만, 우리는 그 격차를 상당히 좁혀 실용적인 적은 단계 DLLM을 위한 견고한 기반을 마련했습니다. 소스 코드는 https://github.com/Tyrion58/T3D에서 확인할 수 있습니다.
English
Diffusion large language models (DLLMs) have the potential to enable fast text generation by decoding multiple tokens in parallel. However, in practice, their inference efficiency is constrained by the need for many refinement steps, while aggressively reducing the number of steps leads to a substantial degradation in generation quality. To alleviate this, we propose a trajectory self-distillation framework that improves few-step decoding by distilling the model's own generative trajectories. We incorporate Direct Discriminative Optimization (DDO), a reverse-KL objective that promotes mode-seeking distillation and encourages the student to concentrate on high-probability teacher modes. Across benchmarks, our approach consistently outperforms strong few-step baselines and standard training under tight step budgets. Although full-step decoding remains superior, we substantially narrow the gap, establishing a strong foundation towards practical few-step DLLMs. The source code is available at https://github.com/Tyrion58/T3D.
PDF61February 14, 2026