ChatPaper.aiChatPaper

進度を考慮した信頼度スケジュールによる高速デコーディング拡散言語モデル

Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules

December 2, 2025
著者: Amr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang
cs.AI

要旨

拡散型大規模言語モデル(dLLM)は自己回帰モデルに代わる有望なアプローチであるが、反復的なサンプリングによる遅い処理速度が実用上の大きな障壁となっている。本研究では、学習不要でモデルに依存しない早期終了アルゴリズムSchEDを提案する。この手法は全文スパンのロジットマージンを集約し、滑らかな進行依存の信頼度閾値を満たした時点でデコードを停止する。2つのdLLMファミリー(DreamとLLaDA)について、ベースモデルと指示チューニング版の両方で、多肢選択問題回答(MCQ)、数学、長文QA/要約、翻訳を含む10のベンチマークを評価した。SchEDは大幅かつ安定した高速化を実現:指示チューニングモデルでは平均3.8-4.0倍の高速化を達成しつつ、ベースラインスコアの99.8-100%を維持した。ベースモデルでは、99.1-100%の性能維持を伴う一貫した高速化効果を示し、より積極的な設定では最大2.34倍まで向上した。品質劣化を重度にペナルティする保守的速度指標(QPS, γ=4)を用いた評価により、SchEDが従来の信頼度ベース早期終了手法(長文生成で破綻する)を明確に上回る頑健性を持つことを実証した。モデルのトークン予測のエントロピー分析により、指示チューニングが予測エントロピーの減衰を加速することが明らかになった。真の信頼度安定化を計算効率に変換するSchEDは、dLLMのデコード効率を大幅に改善する。
English
Diffusion large language models (dLLMs) offer a promising alternative to autoregressive models, but their practical utility is severely hampered by slow, iterative sampling. We present SchED, a training-free, model-agnostic early-exit algorithm that aggregates full-span logit margins and halts decoding once a smooth, progress-dependent confidence threshold is met. We evaluated SchED on two dLLM families (Dream and LLaDA), in base and instruction-tuned variants across ten benchmarks spanning downstream tasks including multiple-choice question answering (MCQ), math, long-form QA/summarization, and translation. SchED delivers large, stable accelerations: on instruction-tuned models, it achieves 3.8-4.0times speedups while retaining 99.8-100% of the baseline score on average. On base models, SchED yields consistent speedup gains with 99.1-100% performance retention, with up to 2.34times under more aggressive settings. Using a conservative speed metric that heavily penalizes quality loss (QPS, γ{=}4), we show that SchED is robust and clearly outperforms prior confidence-based early-exit methods, which break down on long-form generation. An entropy analysis of the model's token predictions reveals that instruction tuning speeds up the decay of predictive entropy. By turning genuine confidence stabilization into computational savings, SchED makes dLLM decoding substantially more efficient.
PDF92December 13, 2025