秘教的言語モデル
Esoteric Language Models
June 2, 2025
著者: Subham Sekhar Sahoo, Zhihan Yang, Yash Akhauri, Johnna Liu, Deepansha Singh, Zhoujun Cheng, Zhengzhong Liu, Eric Xing, John Thickstun, Arash Vahdat
cs.AI
要旨
拡散ベースの言語モデルは、並列かつ制御可能な生成を可能にすることで、自己回帰(AR)モデルに対する魅力的な代替手段を提供する。このモデルファミリーの中でも、マスク拡散モデル(MDM)は最も高い性能を達成しているが、依然としてARモデルに比べてパープレキシティの点で劣り、推論時の効率性に関する重要な機能、特にKVキャッシュを欠いている。本研究では、ARとMDMのパラダイムを融合させた新しいモデルファミリーであるEso-LMsを導入し、それぞれの限界を克服しながら、それらのパープレキシティ間の滑らかな補間を可能にする。Eso-LMsは、標準的な言語モデリングベンチマークにおいて新たな最先端の性能を達成した。特に、**MDMに初めてKVキャッシュを導入**し、並列生成を維持しながら推論効率を大幅に向上させた。最適化されたサンプリングスケジュールと組み合わせることで、本手法は標準的なMDMよりも最大**65倍**、従来の半自己回帰アプローチよりも**4倍**高速な推論を実現した。コードとモデルチェックポイントはプロジェクトページで提供している:
[http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)
English
Diffusion-based language models offer a compelling alternative to
autoregressive (AR) models by enabling parallel and controllable generation.
Among this family of models, Masked Diffusion Models (MDMs) achieve the
strongest performance but still underperform AR models in perplexity and lack
key inference-time efficiency features--most notably, KV caching. In this work,
we introduce Eso-LMs, a new family of models that fuses AR and MDM paradigms,
enabling smooth interpolation between their perplexities while overcoming their
respective limitations. Eso-LMs set a new state of the art on standard language
modeling benchmarks. Crucially, we are the **first to introduce KV caching for
MDMs** while preserving parallel generation, significantly improving inference
efficiency. Combined with an optimized sampling schedule, our method achieves
up to **65x** faster inference than standard MDMs and **4x** faster inference
than prior semi-autoregressive approaches. We provide the code and model
checkpoints on the project page:
[http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)