Modèles de langage à diffusion à décodage rapide via des plannings de confiance sensibles à la progression
Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules
December 2, 2025
papers.authors: Amr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang
cs.AI
papers.abstract
Les modèles de langage à diffusion (dLLM) constituent une alternative prometteuse aux modèles autorégressifs, mais leur utilité pratique est sévèrement limitée par un échantillonnage itératif lent. Nous présentons SchED, un algorithme de sortie anticipée agnostique au modèle et ne nécessitant aucun entraînement, qui agrège les marges des logits sur toute la portée et interrompt le décodage une fois qu'un seuil de confiance progressif et fluide est atteint. Nous avons évalué SchED sur deux familles de dLLM (Dream et LLaDA), dans leurs variantes de base et instructionnées, sur dix benchmarks couvrant des tâches en aval incluant le question-réponse à choix multiples (QACM), les mathématiques, le question-réponse/résumé long et la traduction. SchED offre des accélérations importantes et stables : sur les modèles instructionnés, il permet des accélérations de 3,8 à 4,0 fois tout en conservant 99,8 à 100 % du score de référence en moyenne. Sur les modèles de base, SchED procure des gains d'accélération constants avec une rétention des performances de 99,1 à 100 %, pouvant atteindre jusqu'à 2,34 fois dans des configurations plus agressives. En utilisant une métrique de vitesse conservative pénalisant fortement la perte de qualité (QPS, γ=4), nous montrons que SchED est robuste et surpasse clairement les méthodes précédentes de sortie anticipée basées sur la confiance, qui échouent sur la génération longue. Une analyse de l'entropie des prédictions de tokens du modèle révèle que l'instructionnement accélère la décroissance de l'entropie prédictive. En transformant une stabilisation réelle de la confiance en économies de calcul, SchED rend le décodage des dLLM substantiellement plus efficace.
English
Diffusion large language models (dLLMs) offer a promising alternative to autoregressive models, but their practical utility is severely hampered by slow, iterative sampling. We present SchED, a training-free, model-agnostic early-exit algorithm that aggregates full-span logit margins and halts decoding once a smooth, progress-dependent confidence threshold is met. We evaluated SchED on two dLLM families (Dream and LLaDA), in base and instruction-tuned variants across ten benchmarks spanning downstream tasks including multiple-choice question answering (MCQ), math, long-form QA/summarization, and translation. SchED delivers large, stable accelerations: on instruction-tuned models, it achieves 3.8-4.0times speedups while retaining 99.8-100% of the baseline score on average. On base models, SchED yields consistent speedup gains with 99.1-100% performance retention, with up to 2.34times under more aggressive settings. Using a conservative speed metric that heavily penalizes quality loss (QPS, γ{=}4), we show that SchED is robust and clearly outperforms prior confidence-based early-exit methods, which break down on long-form generation. An entropy analysis of the model's token predictions reveals that instruction tuning speeds up the decay of predictive entropy. By turning genuine confidence stabilization into computational savings, SchED makes dLLM decoding substantially more efficient.