無限大:高解像度画像合成のためのビット単位自己回帰モデリングのスケーリング
Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
December 5, 2024
著者: Jian Han, Jinlai Liu, Yi Jiang, Bin Yan, Yuqi Zhang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
cs.AI
要旨
私たちは、言語指示に従って高解像度で写実的な画像を生成することができるビット単位の視覚自己回帰モデリングであるInfinityを提案します。Infinityは、無限語彙のトークナイザー&分類器とビット単位の自己修正メカニズムを備えたビット単位のトークン予測フレームワークの下で視覚自己回帰モデルを再定義し、生成能力と詳細を著しく向上させます。トークナイザーの語彙サイズを理論的に無限にスケーリングし、同時にトランスフォーマーサイズをスケーリングすることで、当社の手法はバニラVARと比較して強力なスケーリング能力を大幅に発揮します。Infinityは、SD3-MediumやSDXLなどのトップティアの拡散モデルを上回る、自己回帰的なテキストから画像へのモデルにおいて新記録を樹立します。特に、Infinityは、GenEvalベンチマークスコアを0.62から0.73、ImageRewardベンチマークスコアを0.87から0.96に向上させ、勝率66%を達成することで、SD3-Mediumを凌駕します。追加の最適化なしで、Infinityは0.8秒で高品質の1024x1024画像を生成し、SD3-Mediumより2.6倍速く、最速のテキストから画像へのモデルとして確立されます。モデルとコードは公開され、視覚生成および統一されたトークナイザーモデリングのさらなる探求を促進するために提供されます。
English
We present Infinity, a Bitwise Visual AutoRegressive Modeling capable of
generating high-resolution, photorealistic images following language
instruction. Infinity redefines visual autoregressive model under a bitwise
token prediction framework with an infinite-vocabulary tokenizer & classifier
and bitwise self-correction mechanism, remarkably improving the generation
capacity and details. By theoretically scaling the tokenizer vocabulary size to
infinity and concurrently scaling the transformer size, our method
significantly unleashes powerful scaling capabilities compared to vanilla VAR.
Infinity sets a new record for autoregressive text-to-image models,
outperforming top-tier diffusion models like SD3-Medium and SDXL. Notably,
Infinity surpasses SD3-Medium by improving the GenEval benchmark score from
0.62 to 0.73 and the ImageReward benchmark score from 0.87 to 0.96, achieving a
win rate of 66%. Without extra optimization, Infinity generates a high-quality
1024x1024 image in 0.8 seconds, making it 2.6x faster than SD3-Medium and
establishing it as the fastest text-to-image model. Models and codes will be
released to promote further exploration of Infinity for visual generation and
unified tokenizer modeling.Summary
AI-Generated Summary