Modelos de Lenguaje de Difusión de Decodificación Rápida mediante Programaciones de Confianza Sensibles al Progreso
Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules
December 2, 2025
Autores: Amr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang
cs.AI
Resumen
Los modelos de lenguaje grandes de difusión (dLLMs) ofrecen una alternativa prometedora a los modelos autorregresivos, pero su utilidad práctica se ve severamente limitada por un muestreo lento e iterativo. Presentamos SchED, un algoritmo de salida temprana agnóstico al modelo y que no requiere entrenamiento, que agrega los márgenes de logits de span completo y detiene la decodificación una vez que se alcanza un umbral de confianza suave y dependiente del progreso. Evaluamos SchED en dos familias de dLLMs (Dream y LLaDA), en variantes base y ajustadas por instrucciones, a través de diez benchmarks que abarcan tareas posteriores como respuesta a preguntas de opción múltiple (MCQ), matemáticas, QA/resumen de texto largo y traducción. SchED proporciona aceleraciones grandes y estables: en modelos ajustados por instrucciones, logra aceleraciones de 3.8 a 4.0 veces manteniendo en promedio un 99.8-100% de la puntuación de referencia. En modelos base, SchED produce ganancias de aceleración consistentes con una retención del rendimiento del 99.1-100%, llegando hasta 2.34 veces bajo configuraciones más agresivas. Utilizando una métrica de velocidad conservadora que penaliza fuertemente la pérdida de calidad (QPS, γ=4), demostramos que SchED es robusto y supera claramente a métodos previos de salida temprana basados en confianza, que fallan en la generación de texto largo. Un análisis de la entropía de las predicciones de tokens del modelo revela que el ajuste por instrucciones acelera la disminución de la entropía predictiva. Al convertir la estabilización de la confianza genuina en ahorros computacionales, SchED hace que la decodificación de dLLMs sea sustancialmente más eficiente.
English
Diffusion large language models (dLLMs) offer a promising alternative to autoregressive models, but their practical utility is severely hampered by slow, iterative sampling. We present SchED, a training-free, model-agnostic early-exit algorithm that aggregates full-span logit margins and halts decoding once a smooth, progress-dependent confidence threshold is met. We evaluated SchED on two dLLM families (Dream and LLaDA), in base and instruction-tuned variants across ten benchmarks spanning downstream tasks including multiple-choice question answering (MCQ), math, long-form QA/summarization, and translation. SchED delivers large, stable accelerations: on instruction-tuned models, it achieves 3.8-4.0times speedups while retaining 99.8-100% of the baseline score on average. On base models, SchED yields consistent speedup gains with 99.1-100% performance retention, with up to 2.34times under more aggressive settings. Using a conservative speed metric that heavily penalizes quality loss (QPS, γ{=}4), we show that SchED is robust and clearly outperforms prior confidence-based early-exit methods, which break down on long-form generation. An entropy analysis of the model's token predictions reveals that instruction tuning speeds up the decay of predictive entropy. By turning genuine confidence stabilization into computational savings, SchED makes dLLM decoding substantially more efficient.