T3D : Modèles de langage à diffusion en quelques étapes via l'autodistillation de trajectoire avec optimisation discriminative directe
T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization
February 12, 2026
papers.authors: Tunyu Zhang, Xinxi Zhang, Ligong Han, Haizhou Shi, Xiaoxiao He, Zhuowei Li, Hao Wang, Kai Xu, Akash Srivastava, Hao Wang, Vladimir Pavlovic, Dimitris N. Metaxas
cs.AI
papers.abstract
Les modèles de langage à grande échelle de diffusion (DLLM) ont le potentiel de permettre une génération rapide de texte en décodant plusieurs tokens en parallèle. Cependant, en pratique, leur efficacité d'inférence est limitée par la nécessité de nombreuses étapes de raffinement, tandis qu'une réduction agressive du nombre d'étapes entraîne une dégradation substantielle de la qualité de génération. Pour remédier à cela, nous proposons un cadre d'auto-distillation de trajectoire qui améliore le décodage en peu d'étapes en distillant les trajectoires génératives propres au modèle. Nous intégrons l'Optimisation Discriminative Directe (DDO), un objectif de KL inverse qui favorise une distillation axée sur les modes et encourage l'élève à se concentrer sur les modes de forte probabilité de l'enseignant. Sur diverses benchmarks, notre approche surpasse constamment les bases de référence solides en peu d'étapes et l'apprentissage standard sous des budgets d'étapes serrés. Bien que le décodage avec toutes les étapes reste supérieur, nous réduisons considérablement l'écart, établissant une base solide vers des DLLM pratiques en peu d'étapes. Le code source est disponible à l'adresse https://github.com/Tyrion58/T3D.
English
Diffusion large language models (DLLMs) have the potential to enable fast text generation by decoding multiple tokens in parallel. However, in practice, their inference efficiency is constrained by the need for many refinement steps, while aggressively reducing the number of steps leads to a substantial degradation in generation quality. To alleviate this, we propose a trajectory self-distillation framework that improves few-step decoding by distilling the model's own generative trajectories. We incorporate Direct Discriminative Optimization (DDO), a reverse-KL objective that promotes mode-seeking distillation and encourages the student to concentrate on high-probability teacher modes. Across benchmarks, our approach consistently outperforms strong few-step baselines and standard training under tight step budgets. Although full-step decoding remains superior, we substantially narrow the gap, establishing a strong foundation towards practical few-step DLLMs. The source code is available at https://github.com/Tyrion58/T3D.