T3D:軌道自己蒸留と直接識別的最適化によるFew-Step拡散言語モデル
T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization
February 12, 2026
著者: Tunyu Zhang, Xinxi Zhang, Ligong Han, Haizhou Shi, Xiaoxiao He, Zhuowei Li, Hao Wang, Kai Xu, Akash Srivastava, Hao Wang, Vladimir Pavlovic, Dimitris N. Metaxas
cs.AI
要旨
拡散大規模言語モデル(DLLM)は、複数のトークンを並列にデコードすることで高速なテキスト生成を実現する可能性を秘めている。しかし実際には、多くの反復改良ステップを必要とするため推論効率が制約されており、ステップ数を過度に削減すると生成品質が大幅に低下する。この問題を緩和するため、我々はモデル自身の生成的軌跡を蒸留することで、少ステップデコードを改善する軌跡自己蒸留フレームワークを提案する。本手法では、モード追従型の蒸留を促進し、生徒モデルが教師モデルの高確率モードに集中するよう促す逆KL目的関数である直接識別的最適化(DDO)を組み込む。ベンチマーク評価において、本手法は厳しいステップ予算下で、強力な少ステップベースラインや標準的な学習手法を一貫して上回った。完全ステップデコードの優位性は変わらないものの、その性能差を大幅に縮小し、実用的な少ステップDLLMに向けた強固な基盤を確立した。ソースコードはhttps://github.com/Tyrion58/T3D で公開されている。
English
Diffusion large language models (DLLMs) have the potential to enable fast text generation by decoding multiple tokens in parallel. However, in practice, their inference efficiency is constrained by the need for many refinement steps, while aggressively reducing the number of steps leads to a substantial degradation in generation quality. To alleviate this, we propose a trajectory self-distillation framework that improves few-step decoding by distilling the model's own generative trajectories. We incorporate Direct Discriminative Optimization (DDO), a reverse-KL objective that promotes mode-seeking distillation and encourages the student to concentrate on high-probability teacher modes. Across benchmarks, our approach consistently outperforms strong few-step baselines and standard training under tight step budgets. Although full-step decoding remains superior, we substantially narrow the gap, establishing a strong foundation towards practical few-step DLLMs. The source code is available at https://github.com/Tyrion58/T3D.