Быстро декодируемые диффузионные языковые модели с использованием прогрессивно-зависимых шкал уверенности
Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules
December 2, 2025
Авторы: Amr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang
cs.AI
Аннотация
Диффузионные большие языковые модели (dLLM) представляют перспективную альтернативу авторегрессионным моделям, однако их практическая полезность серьезно ограничена медленным итеративным сэмплированием. Мы представляем SchED — не требующий дообучения и агностичный к модели алгоритм раннего выхода, который агрегирует маргиналы логитов на всем промежутке и останавливает декодирование, как только достигается плавный порог уверенности, зависящий от прогресса. Мы оценили SchED на двух семействах dLLM (Dream и LLaDA) в базовых и инструктивно-настроенных вариантах на десяти тестовых наборах, охватывающих такие задачи, как ответы на вопросы с множественным выбором (MCQ), математика, вопросы/суммаризация длинной формы и перевод. SchED обеспечивает значительное и стабильное ускорение: на инструктивно-настроенных моделях он достигает ускорения в 3,8–4,0 раза при сохранении в среднем 99,8–100% балла базового уровня. На базовых моделях SchED дает стабильный выигрыш в скорости при сохранении 99,1–100% производительности, с увеличением до 2,34 раза в более агрессивных настройках. Используя консервативную метрику скорости, которая строго штрафует за потерю качества (QPS, γ=4), мы показываем, что SchED надежен и явно превосходит предыдущие методы раннего выхода на основе уверенности, которые не работают на генерации длинной формы. Анализ энтропии токенных предсказаний модели показывает, что инструктивная настройка ускоряет затухание прогностической энтропии. Превращая реальную стабилизацию уверенности в вычислительную экономию, SchED делает декодирование dLLM существенно более эффективным.
English
Diffusion large language models (dLLMs) offer a promising alternative to autoregressive models, but their practical utility is severely hampered by slow, iterative sampling. We present SchED, a training-free, model-agnostic early-exit algorithm that aggregates full-span logit margins and halts decoding once a smooth, progress-dependent confidence threshold is met. We evaluated SchED on two dLLM families (Dream and LLaDA), in base and instruction-tuned variants across ten benchmarks spanning downstream tasks including multiple-choice question answering (MCQ), math, long-form QA/summarization, and translation. SchED delivers large, stable accelerations: on instruction-tuned models, it achieves 3.8-4.0times speedups while retaining 99.8-100% of the baseline score on average. On base models, SchED yields consistent speedup gains with 99.1-100% performance retention, with up to 2.34times under more aggressive settings. Using a conservative speed metric that heavily penalizes quality loss (QPS, γ{=}4), we show that SchED is robust and clearly outperforms prior confidence-based early-exit methods, which break down on long-form generation. An entropy analysis of the model's token predictions reveals that instruction tuning speeds up the decay of predictive entropy. By turning genuine confidence stabilization into computational savings, SchED makes dLLM decoding substantially more efficient.