Open-MAGVIT2: Een Open-Source Project Gericht op het Democratiseren van Auto-regressieve Visuele Generatie
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation
September 6, 2024
Auteurs: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
cs.AI
Samenvatting
We presenteren Open-MAGVIT2, een familie van auto-regressieve beeldgeneratiemodellen variërend van 300M tot 1,5B parameters. Het Open-MAGVIT2-project levert een open-source replicatie van Google's MAGVIT-v2 tokenizer, een tokenizer met een extreem grote codeboek (d.w.z. 2^{18} codes), en behaalt state-of-the-art reconstructieprestaties (1,17 rFID) op ImageNet 256 bij 256. Daarnaast onderzoeken we de toepassing ervan in standaard auto-regressieve modellen en valideren we de schaalbaarheidseigenschappen. Om auto-regressieve modellen te ondersteunen bij het voorspellen met een extreem grote vocabulaire, factoriseren we deze in twee sub-vocabulaires van verschillende groottes door asymmetrische tokenfactorisatie, en introduceren we "next sub-token prediction" om de interactie tussen sub-tokens te verbeteren voor een betere generatiekwaliteit. We maken alle modellen en code vrij beschikbaar om innovatie en creativiteit op het gebied van auto-regressieve visuele generatie te bevorderen.
English
We present Open-MAGVIT2, a family of auto-regressive image generation models
ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source
replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large
codebook (i.e., 2^{18} codes), and achieves the state-of-the-art
reconstruction performance (1.17 rFID) on ImageNet 256 times 256.
Furthermore, we explore its application in plain auto-regressive models and
validate scalability properties. To assist auto-regressive models in predicting
with a super-large vocabulary, we factorize it into two sub-vocabulary of
different sizes by asymmetric token factorization, and further introduce "next
sub-token prediction" to enhance sub-token interaction for better generation
quality. We release all models and codes to foster innovation and creativity in
the field of auto-regressive visual generation.Summary
AI-Generated Summary