Open-MAGVIT2: 自己回帰型ビジュアル生成の民主化に向けたオープンソースプロジェクト
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation
September 6, 2024
著者: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
cs.AI
要旨
Open-MAGVIT2は、300Mから1.5Bに及ぶオートレグレッシブ画像生成モデルファミリーを提供します。Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークナイザーのオープンソースレプリケーションを生成し、超大規模なコードブック(すなわち、2^{18}コード)を持つトークナイザーを実現し、ImageNet 256 times 256において最先端の再構築パフォーマンス(1.17 rFID)を達成します。さらに、その適用を通じて通常のオートレグレッシブモデルのスケーラビリティ特性を検証します。超大規模な語彙を持つオートレグレッシブモデルの予測を支援するために、非対称トークン因数分解によって異なるサイズの2つのサブ語彙に分解し、さらに「次のサブトークン予測」を導入して、サブトークンの相互作用を強化し、より良い生成品質を実現します。私たちは、オートレグレッシブビジュアル生成の分野における革新と創造性を促進するために、すべてのモデルとコードを公開しています。
English
We present Open-MAGVIT2, a family of auto-regressive image generation models
ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source
replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large
codebook (i.e., 2^{18} codes), and achieves the state-of-the-art
reconstruction performance (1.17 rFID) on ImageNet 256 times 256.
Furthermore, we explore its application in plain auto-regressive models and
validate scalability properties. To assist auto-regressive models in predicting
with a super-large vocabulary, we factorize it into two sub-vocabulary of
different sizes by asymmetric token factorization, and further introduce "next
sub-token prediction" to enhance sub-token interaction for better generation
quality. We release all models and codes to foster innovation and creativity in
the field of auto-regressive visual generation.Summary
AI-Generated Summary