再帰的深層モデル向けの効率的な並列サンプラーと 拡散言語モデルとの関連性
Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
October 16, 2025
著者: Jonas Geiping, Xinyu Yang, Guinan Su
cs.AI
要旨
リカレント深度を持つ言語モデル(トランスフォーマーを考慮する場合、ユニバーサルまたはループ型とも呼ばれる)は、層の繰り返しを通じて計算量を増加させる能力によって定義されます。最近の事前学習の取り組みにより、これらのアーキテクチャが現代の言語モデリングタスクにスケールし、推論タスクにおいて優位性を示すことが実証されています。本研究では、リカレント深度モデルと拡散言語モデルの関係を検討します。これらの類似性を基に、生成を加速するための新しい拡散強制サンプラーを開発します。このサンプラーは、モデルの各フォワードパスで新しいトークンをデコードしながら、これらのトークンの潜在状態を並列的にリカレンスを通じてさらに洗練させます。理論的には、現代のハードウェア上で同じ時間予算を使用した場合、このサンプラーによる生成はベースラインの自己回帰生成よりも厳密に表現力が高くなります。さらに、拡散文献の原則に基づくこのサンプラーは、チューニングなしで既存の3.5Bリカレント深度トランスフォーマーに直接適用でき、最大5倍の高速化を実現します。その結果、我々の知見は、推論時にリカレント深度モデルの追加計算を並列化する効率的なメカニズムを提供するだけでなく、そのようなモデルが強力な連続的(ただし因果的)拡散言語モデルとして自然に捉えられることを示唆しています。
English
Language models with recurrent depth, also referred to as universal or looped
when considering transformers, are defined by the capacity to increase their
computation through the repetition of layers. Recent efforts in pretraining
have demonstrated that these architectures can scale to modern language
modeling tasks while exhibiting advantages in reasoning tasks. In this work, we
examine the relationship between recurrent-depth models and diffusion language
models. Building on their similarities, we develop a new diffusion forcing
sampler for these models to accelerate generation. The sampler advances by
decoding new tokens at every forward pass of the model, while the latent states
of these tokens can be further refined in parallel through recurrence.
Theoretically, generation with our sampler is strictly more expressive than the
baseline autoregressive generation using the same time budget on modern
hardware. Moreover, this sampler, based on principles from diffusion
literature, can be directly applied to existing 3.5B recurrent-depth
transformers without any tuning, leading to up to a 5x speedup. Consequently,
our findings not only provide an efficient mechanism for parallelizing the
extra computation in recurrent-depth models at inference, but also suggest that
such models can be naturally viewed as strong continuous, though causal,
diffusion language models.