すべてのノイズ除去ステップが等価ではない:マスク拡散言語モデルの高速化のためのモデルスケジューリング
Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models
April 11, 2026
著者: Ivan Sedykh, Nikita Sorokin, Valentin Malykh
cs.AI
要旨
マスク拡散言語モデル(MDLM)の最近の進歩により、自己回帰型LMとの品質差は縮小しているが、生成には大規模なTransformerを用いた多数の全系列ノイズ除去ステップが必要であり、自己回帰的な復号とは異なりKVキャッシュの恩恵を受けられないため、サンプリングコストは依然として高い。本研究では、拡散フレームワークの柔軟性を活かし、ノイズ除去ステップの一部において大規模モデルを小規模なMDLMで置き換えるモデルスケジューリングを検討する。OpenWebTextとLM1Bで学習したモデルを用いた実験により、中間ステップに比べて初期および終了ステップはこのような置換に対して著しく頑健であることを示す。これにより、無条件生成とプレフィックス条件生成の両方において、生成パープレキシティの低下を抑えつつFLOPsを最大17%削減可能であり、サンプル多様性も維持される。これらの知見を裏付けるため、タイムステップごとの損失および大小モデル間のKLダイバージンスに基づくステップ重要性分析、ならびに粗いステップ区分に対する網羅的探索を実施した。いずれの手法でも、データセットを問わず拡散軌道の中間部分が一貫して最も敏感であることが確認された。我々の結果は、シンプルでアーキテクチャに依存しないスケジューリング規則によって、MDLMのサンプリングを大幅に高速化しつつ生成品質をほぼ維持できる可能性を示唆している。
English
Recent advances in masked diffusion language models (MDLMs) narrow the quality gap to autoregressive LMs, but their sampling remains expensive because generation requires many full-sequence denoising passes with a large Transformer and, unlike autoregressive decoding, cannot benefit from KV caching. In this work, we exploit the flexibility of the diffusion framework and study model scheduling, where a smaller MDLM replaces the full model at a subset of denoising steps. Across models trained on OpenWebText and LM1B, we show that early and late denoising steps are substantially more robust to such replacement than middle steps, enabling up to a 17% reduction in FLOPs with only modest degradation in generative perplexity under both unconditional and prefix-conditional generation, while preserving sample diversity. We support these findings with a step-importance analysis based on loss and KL divergence between small and large models across timesteps, as well as an exhaustive search over coarse step segments, both of which identify the middle of the diffusion trajectory as most sensitive consistently across datasets. Our results suggest that simple, architecture-agnostic scheduling rules can significantly accelerate MDLM sampling while largely preserving generation quality.