Open-MAGVIT2 : Un Projet Open Source Pour Démocratiser la Génération Visuelle Auto-Régressive
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation
September 6, 2024
Auteurs: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
cs.AI
Résumé
Nous présentons Open-MAGVIT2, une famille de modèles de génération d'images auto-régressifs allant de 300M à 1.5B. Le projet Open-MAGVIT2 produit une réplication open-source du tokenizer MAGVIT-v2 de Google, un tokenizer avec un super-grand carnet de codes (c'est-à-dire, 2^{18} codes), et atteint des performances de reconstruction de pointe (1.17 rFID) sur ImageNet 256 par 256. De plus, nous explorons son application dans des modèles auto-régressifs simples et validons ses propriétés de scalabilité. Pour aider les modèles auto-régressifs à prédire avec un vocabulaire super-grand, nous le factorisons en deux sous-vocabulaires de tailles différentes par une factorisation asymétrique des jetons, et introduisons également la "prédiction du prochain sous-jeton" pour améliorer l'interaction des sous-jetons en vue d'une meilleure qualité de génération. Nous mettons à disposition tous les modèles et codes pour favoriser l'innovation et la créativité dans le domaine de la génération visuelle auto-régressive.
English
We present Open-MAGVIT2, a family of auto-regressive image generation models
ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source
replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large
codebook (i.e., 2^{18} codes), and achieves the state-of-the-art
reconstruction performance (1.17 rFID) on ImageNet 256 times 256.
Furthermore, we explore its application in plain auto-regressive models and
validate scalability properties. To assist auto-regressive models in predicting
with a super-large vocabulary, we factorize it into two sub-vocabulary of
different sizes by asymmetric token factorization, and further introduce "next
sub-token prediction" to enhance sub-token interaction for better generation
quality. We release all models and codes to foster innovation and creativity in
the field of auto-regressive visual generation.Summary
AI-Generated Summary