ChatPaper.aiChatPaper

Open-MAGVIT2 : Un Projet Open Source Pour Démocratiser la Génération Visuelle Auto-Régressive

Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

September 6, 2024
Auteurs: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
cs.AI

Résumé

Nous présentons Open-MAGVIT2, une famille de modèles de génération d'images auto-régressifs allant de 300M à 1.5B. Le projet Open-MAGVIT2 produit une réplication open-source du tokenizer MAGVIT-v2 de Google, un tokenizer avec un super-grand carnet de codes (c'est-à-dire, 2^{18} codes), et atteint des performances de reconstruction de pointe (1.17 rFID) sur ImageNet 256 par 256. De plus, nous explorons son application dans des modèles auto-régressifs simples et validons ses propriétés de scalabilité. Pour aider les modèles auto-régressifs à prédire avec un vocabulaire super-grand, nous le factorisons en deux sous-vocabulaires de tailles différentes par une factorisation asymétrique des jetons, et introduisons également la "prédiction du prochain sous-jeton" pour améliorer l'interaction des sous-jetons en vue d'une meilleure qualité de génération. Nous mettons à disposition tous les modèles et codes pour favoriser l'innovation et la créativité dans le domaine de la génération visuelle auto-régressive.
English
We present Open-MAGVIT2, a family of auto-regressive image generation models ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large codebook (i.e., 2^{18} codes), and achieves the state-of-the-art reconstruction performance (1.17 rFID) on ImageNet 256 times 256. Furthermore, we explore its application in plain auto-regressive models and validate scalability properties. To assist auto-regressive models in predicting with a super-large vocabulary, we factorize it into two sub-vocabulary of different sizes by asymmetric token factorization, and further introduce "next sub-token prediction" to enhance sub-token interaction for better generation quality. We release all models and codes to foster innovation and creativity in the field of auto-regressive visual generation.

Summary

AI-Generated Summary

PDF262November 16, 2024