ChatPaper.aiChatPaper

D-AR: 自己回帰モデルによる拡散

D-AR: Diffusion via Autoregressive Models

May 29, 2025
著者: Ziteng Gao, Mike Zheng Shou
cs.AI

要旨

本論文では、Diffusion via Autoregressive models (D-AR) という新しいパラダイムを提案します。これは、画像拡散プロセスを標準的な次トークン予測形式の単純な自己回帰プロセスとして再構築するものです。まず、画像を離散トークンのシーケンスに変換するトークナイザを設計します。ここで、異なる位置のトークンは、ピクセル空間における異なる拡散ノイズ除去ステップにデコードされます。拡散の特性により、これらのトークンは自然に粗から細かい順序に従い、これはそのまま自己回帰モデリングに適しています。したがって、これらのトークンに対して標準的な次トークン予測を適用し、基本的な設計(因果マスクや学習/推論戦略)を変更することなく、この逐次的な自己回帰トークン生成が画像空間における拡散プロセスを直接反映します。つまり、自己回帰モデルがトークンの増分を生成すると、これらのトークンをストリーミング方式で対応する拡散ノイズ除去ステップに直接デコードできます。私たちのパイプラインは、いくつかの興味深い特性を自然に明らかにします。例えば、トークンの一部のみを生成する際に一貫したプレビューをサポートし、ゼロショットでのレイアウト制御合成を可能にします。標準的なImageNetベンチマークでは、775MのLlamaバックボーンと256の離散トークンを使用して、2.09のFIDを達成しました。私たちの研究が、特に大規模言語モデルを用いた視覚合成の統一された自己回帰アーキテクチャに関する将来の研究にインスピレーションを与えることを願っています。コードとモデルはhttps://github.com/showlab/D-ARで公開予定です。
English
This paper presents Diffusion via Autoregressive models (D-AR), a new paradigm recasting the image diffusion process as a vanilla autoregressive procedure in the standard next-token-prediction fashion. We start by designing the tokenizer that converts images into sequences of discrete tokens, where tokens in different positions can be decoded into different diffusion denoising steps in the pixel space. Thanks to the diffusion properties, these tokens naturally follow a coarse-to-fine order, which directly lends itself to autoregressive modeling. Therefore, we apply standard next-token prediction on these tokens, without modifying any underlying designs (either causal masks or training/inference strategies), and such sequential autoregressive token generation directly mirrors the diffusion procedure in image space. That is, once the autoregressive model generates an increment of tokens, we can directly decode these tokens into the corresponding diffusion denoising step in the streaming manner. Our pipeline naturally reveals several intriguing properties, for example, it supports consistent previews when generating only a subset of tokens and enables zero-shot layout-controlled synthesis. On the standard ImageNet benchmark, our method achieves 2.09 FID using a 775M Llama backbone with 256 discrete tokens. We hope our work can inspire future research on unified autoregressive architectures of visual synthesis, especially with large language models. Code and models will be available at https://github.com/showlab/D-AR

Summary

AI-Generated Summary

PDF342May 30, 2025