推測的ヤコビ・デノイジングデコーディングによる自己回帰的テキスト画像生成の高速化
Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation
October 10, 2025
著者: Yao Teng, Fuyun Wang, Xian Liu, Zhekai Chen, Han Shi, Yu Wang, Zhenguo Li, Weiyang Liu, Difan Zou, Xihui Liu
cs.AI
要旨
視覚コンテンツ生成の新たなパラダイムとして、自己回帰型テキスト-to-イメージモデルは、トークンごとの逐次的なデコードプロセスにより推論速度が遅く、単一の画像を生成するために数千回のモデルフォワードパスを必要とするという課題を抱えています。この非効率性を解決するため、我々はSpeculative Jacobi-Denoising Decoding (SJD2)を提案します。このフレームワークは、デノイジングプロセスをJacobi反復に組み込むことで、自己回帰モデルにおける並列トークン生成を可能にします。我々の手法は、事前学習済みの自己回帰モデルがノイズ摂動を受けたトークン埋め込みを受け入れ、低コストのファインチューニングを通じて次のクリーントークンを予測する「次クリーントークン予測」パラダイムを導入します。このデノイジングパラダイムは、モデルをより安定したJacobi軌道に導きます。推論時には、我々の手法はトークンシーケンスをガウシアンノイズで初期化し、埋め込み空間で反復的な次クリーントークン予測を実行します。確率的基準を用いて複数のトークンを並列に検証・受け入れ、未受け入れのトークンをデノイジング軌道で次の反復のために洗練します。実験結果は、我々の手法がモデルフォワードパスを削減しながら生成画像の視覚的品質を維持し、生成を加速できることを示しています。
English
As a new paradigm of visual content generation, autoregressive text-to-image
models suffer from slow inference due to their sequential token-by-token
decoding process, often requiring thousands of model forward passes to generate
a single image. To address this inefficiency, we propose Speculative
Jacobi-Denoising Decoding (SJD2), a framework that incorporates the denoising
process into Jacobi iterations to enable parallel token generation in
autoregressive models. Our method introduces a next-clean-token prediction
paradigm that enables the pre-trained autoregressive models to accept
noise-perturbed token embeddings and predict the next clean tokens through
low-cost fine-tuning. This denoising paradigm guides the model towards more
stable Jacobi trajectories. During inference, our method initializes token
sequences with Gaussian noise and performs iterative
next-clean-token-prediction in the embedding space. We employ a probabilistic
criterion to verify and accept multiple tokens in parallel, and refine the
unaccepted tokens for the next iteration with the denoising trajectory.
Experiments show that our method can accelerate generation by reducing model
forward passes while maintaining the visual quality of generated images.