Modelli Linguistici di Diffusione a Decodifica Rapida tramite Schedulazioni di Confidenza Consapevoli del Progresso
Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules
December 2, 2025
Autori: Amr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni a diffusione (dLLM) rappresentano una promettente alternativa ai modelli autoregressivi, ma la loro utilità pratica è fortemente limitata da un campionamento lento e iterativo. Presentiamo SchED, un algoritmo di early-exit agnostico rispetto al modello e che non richiede addestramento, il quale aggrega i margini dei logit su tutto lo span e interrompe il decoding non appena viene raggiunta una soglia di confidenza fluida e dipendente dal progresso. Abbiamo valutato SchED su due famiglie di dLLM (Dream e LLaDA), nelle varianti base e instruction-tuned, attraverso dieci benchmark che coprono task downstream tra cui question answering a scelta multipla (MCQ), matematica, QA/sommario in forma estesa e traduzione. SchED fornisce accelerazioni consistenti e significative: sui modelli instruction-tuned, raggiunge un aumento di velocità di 3,8-4,0 volte mantenendo in media il 99,8-100% del punteggio di baseline. Sui modelli base, SchED produce guadagni di velocità costanti con una ritenzione delle prestazioni del 99,1-100%, fino a 2,34 volte in configurazioni più aggressive. Utilizzando una metrica di velocità conservativa che penalizza fortemente la perdita di qualità (QPS, γ=4), dimostriamo che SchED è robusto e supera chiaramente i precedenti metodi di early-exit basati sulla confidenza, che falliscono nella generazione in forma estesa. Un'analisi dell'entropia delle previsioni di token del modello rivela che l'instruction tuning accelera il decadimento dell'entropia predittiva. Convertendo la stabilizzazione della confidenza genuina in risparmi computazionali, SchED rende il decoding dei dLLM sostanzialmente più efficiente.
English
Diffusion large language models (dLLMs) offer a promising alternative to autoregressive models, but their practical utility is severely hampered by slow, iterative sampling. We present SchED, a training-free, model-agnostic early-exit algorithm that aggregates full-span logit margins and halts decoding once a smooth, progress-dependent confidence threshold is met. We evaluated SchED on two dLLM families (Dream and LLaDA), in base and instruction-tuned variants across ten benchmarks spanning downstream tasks including multiple-choice question answering (MCQ), math, long-form QA/summarization, and translation. SchED delivers large, stable accelerations: on instruction-tuned models, it achieves 3.8-4.0times speedups while retaining 99.8-100% of the baseline score on average. On base models, SchED yields consistent speedup gains with 99.1-100% performance retention, with up to 2.34times under more aggressive settings. Using a conservative speed metric that heavily penalizes quality loss (QPS, γ{=}4), we show that SchED is robust and clearly outperforms prior confidence-based early-exit methods, which break down on long-form generation. An entropy analysis of the model's token predictions reveals that instruction tuning speeds up the decay of predictive entropy. By turning genuine confidence stabilization into computational savings, SchED makes dLLM decoding substantially more efficient.