T3D: Modelli Linguistici di Diffusione a Pochi Passi tramite Auto-Distillazione della Traiettoria con Ottimizzazione Diretta Discriminativa

Abstract

I modelli linguistici di diffusione (DLLM) hanno il potenziale di abilitare una generazione di testo rapida decodificando più token in parallelo. Tuttavia, nella pratica, la loro efficienza inferenziale è limitata dalla necessità di molti passi di raffinamento, mentre una riduzione aggressiva del numero di passi comporta un degrado sostanziale della qualità della generazione. Per mitigare questo problema, proponiamo un framework di auto-distillazione della traiettoria che migliora la decodifica con pochi passi distillando le traiettorie generative del modello stesso. Incorporiamo l'Ottimizzazione Discriminativa Diretta (DDO), un obiettivo di divergenza KL inversa che promuove una distillazione modale e incoraggia lo studente a concentrarsi sui modi ad alta probabilità del docente. Su diversi benchmark, il nostro approccio supera costantemente baseline forti con pochi passi e l'addestramento standard con budget di passi ristretti. Sebbene la decodifica a passi completi rimanga superiore, riduciamo sostanzialmente il divario, stabilendo una solida base verso DLLM pratici con pochi passi. Il codice sorgente è disponibile all'indirizzo https://github.com/Tyrion58/T3D.

English

Diffusion large language models (DLLMs) have the potential to enable fast text generation by decoding multiple tokens in parallel. However, in practice, their inference efficiency is constrained by the need for many refinement steps, while aggressively reducing the number of steps leads to a substantial degradation in generation quality. To alleviate this, we propose a trajectory self-distillation framework that improves few-step decoding by distilling the model's own generative trajectories. We incorporate Direct Discriminative Optimization (DDO), a reverse-KL objective that promotes mode-seeking distillation and encourages the student to concentrate on high-probability teacher modes. Across benchmarks, our approach consistently outperforms strong few-step baselines and standard training under tight step budgets. Although full-step decoding remains superior, we substantially narrow the gap, establishing a strong foundation towards practical few-step DLLMs. The source code is available at https://github.com/Tyrion58/T3D.

T3D: Modelli Linguistici di Diffusione a Pochi Passi tramite Auto-Distillazione della Traiettoria con Ottimizzazione Diretta Discriminativa

T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization

Abstract

Support