ChatPaper.aiChatPaper

T3D: Modelos de Lenguaje de Difusión en Pocos Pasos mediante Autodistilación de Trayectorias con Optimización Discriminativa Directa

T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization

February 12, 2026
Autores: Tunyu Zhang, Xinxi Zhang, Ligong Han, Haizhou Shi, Xiaoxiao He, Zhuowei Li, Hao Wang, Kai Xu, Akash Srivastava, Hao Wang, Vladimir Pavlovic, Dimitris N. Metaxas
cs.AI

Resumen

Los modelos de lenguaje de gran tamaño basados en difusión (DLLMs) tienen el potencial de permitir una generación rápida de texto mediante la decodificación paralela de múltiples tokens. Sin embargo, en la práctica, su eficiencia inferencial se ve limitada por la necesidad de muchos pasos de refinamiento, mientras que reducir agresivamente el número de pasos conduce a una degradación sustancial en la calidad de la generación. Para mitigar esto, proponemos un marco de autodestilación de trayectorias que mejora la decodificación con pocos pasos mediante la destilación de las propias trayectorias generativas del modelo. Incorporamos la Optimización Discriminativa Directa (DDO), un objetivo de divergencia KL inversa que promueve una destilación centrada en modos y alienta al modelo estudiante a concentrarse en los modos de alta probabilidad del modelo maestro. En diversos benchmarks, nuestro enfoque supera consistentemente a sólidas líneas base de pocos pasos y al entrenamiento estándar bajo presupuestos ajustados de pasos. Aunque la decodificación con todos los pasos sigue siendo superior, reducimos sustancialmente la brecha, estableciendo una base sólida hacia DLLMs prácticos con pocos pasos. El código fuente está disponible en https://github.com/Tyrion58/T3D.
English
Diffusion large language models (DLLMs) have the potential to enable fast text generation by decoding multiple tokens in parallel. However, in practice, their inference efficiency is constrained by the need for many refinement steps, while aggressively reducing the number of steps leads to a substantial degradation in generation quality. To alleviate this, we propose a trajectory self-distillation framework that improves few-step decoding by distilling the model's own generative trajectories. We incorporate Direct Discriminative Optimization (DDO), a reverse-KL objective that promotes mode-seeking distillation and encourages the student to concentrate on high-probability teacher modes. Across benchmarks, our approach consistently outperforms strong few-step baselines and standard training under tight step budgets. Although full-step decoding remains superior, we substantially narrow the gap, establishing a strong foundation towards practical few-step DLLMs. The source code is available at https://github.com/Tyrion58/T3D.
PDF61February 14, 2026