並列化された自己回帰型ビジュアル生成Parallelized Autoregressive Visual Generation
自己回帰モデルは視覚生成において強力な手法として登場していますが、その逐次的なトークンごとの予測プロセスにより推論速度が遅いという課題があります。本論文では、自己回帰型視覚生成を並列化するためのシンプルかつ効果的なアプローチを提案します。このアプローチにより、生成効率を向上させつつ、自己回帰モデリングの利点を保持します。私たちの主要な洞察は、並列生成が視覚トークンの依存関係に依存するという点です。つまり、依存関係が弱いトークンは並列で生成できますが、強く依存する隣接トークンは一緒に生成するのが難しく、独立したサンプリングが不整合を引き起こす可能性があります。この観察に基づき、弱い依存関係を持つ遠隔トークンを並列で生成し、強く依存する局所トークンについては逐次生成を維持する並列生成戦略を開発します。このアプローチは、標準の自己回帰モデルにシームレスに統合でき、アーキテクチャやトークナイザーを変更する必要がありません。ImageNetとUCF-101での実験結果は、当社の手法が画像およびビデオ生成タスクの両方で、同等の品質を維持しつつ、3.6倍の高速化を達成し、品質の低下を最小限に抑えて最大9.5倍の高速化を実現することを示しています。この研究が効率的な視覚生成と統一された自己回帰モデリングにおける将来の研究にインスピレーションを与えることを願っています。プロジェクトページ: https://epiphqny.github.io/PAR-project.