T3D: Modelos de Linguagem de Difusão em Poucos Passos via Autodistilação de Trajetória com Otimização Discriminativa Direta
T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization
February 12, 2026
Autores: Tunyu Zhang, Xinxi Zhang, Ligong Han, Haizhou Shi, Xiaoxiao He, Zhuowei Li, Hao Wang, Kai Xu, Akash Srivastava, Hao Wang, Vladimir Pavlovic, Dimitris N. Metaxas
cs.AI
Resumo
Os modelos de linguagem de grande porte baseados em difusão (DLLMs) têm o potencial de permitir geração rápida de texto através da decodificação paralela de múltiplos tokens. No entanto, na prática, sua eficiência inferencial é limitada pela necessidade de muitas etapas de refinamento, enquanto a redução agressiva do número de etapas leva a uma degradação substancial na qualidade da geração. Para mitigar isso, propomos uma estrutura de autodestilação de trajetória que melhora a decodificação com poucas etapas através da destilação das próprias trajetórias generativas do modelo. Incorporamos a Otimização Discriminativa Direta (DDO), um objetivo de divergência reversa de Kullback-Leibler que promove uma destilação com busca de modos e incentiva o modelo estudante a concentrar-se nos modos de alta probabilidade do modelo professor. Em diversos benchmarks, nossa abordagem supera consistentemente linhas de base fortes com poucas etapas e o treinamento padrão sob orçamentos restritos de etapas. Embora a decodificação com todas as etapas permaneça superior, reduzimos substancialmente a diferença, estabelecendo uma base sólida para DLLMs práticos com poucas etapas. O código-fonte está disponível em https://github.com/Tyrion58/T3D.
English
Diffusion large language models (DLLMs) have the potential to enable fast text generation by decoding multiple tokens in parallel. However, in practice, their inference efficiency is constrained by the need for many refinement steps, while aggressively reducing the number of steps leads to a substantial degradation in generation quality. To alleviate this, we propose a trajectory self-distillation framework that improves few-step decoding by distilling the model's own generative trajectories. We incorporate Direct Discriminative Optimization (DDO), a reverse-KL objective that promotes mode-seeking distillation and encourages the student to concentrate on high-probability teacher modes. Across benchmarks, our approach consistently outperforms strong few-step baselines and standard training under tight step budgets. Although full-step decoding remains superior, we substantially narrow the gap, establishing a strong foundation towards practical few-step DLLMs. The source code is available at https://github.com/Tyrion58/T3D.