ChatPaper.aiChatPaper

Open-MAGVIT2: Un progetto open-source verso la democratizzazione della generazione visiva auto-regressiva.

Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

September 6, 2024
Autori: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
cs.AI

Abstract

Presentiamo Open-MAGVIT2, una famiglia di modelli di generazione di immagini auto-regressivi che vanno da 300M a 1.5B. Il progetto Open-MAGVIT2 produce una replica open-source del tokenizer MAGVIT-v2 di Google, un tokenizer con un codice super-grande (cioè, 2^{18} codici), e raggiunge le prestazioni di ricostruzione all'avanguardia (1.17 rFID) su ImageNet 256 per 256. Inoltre, esploriamo la sua applicazione in modelli auto-regressivi semplici e convalidiamo le proprietà di scalabilità. Per assistere i modelli auto-regressivi nella previsione con un vocabolario super-grande, lo suddividiamo in due sub-vocabolari di dimensioni diverse mediante una fattorizzazione asimmetrica dei token, e introduciamo inoltre la "previsione del prossimo sub-token" per potenziare l'interazione tra i sub-token per una migliore qualità di generazione. Rilasciamo tutti i modelli e i codici per promuovere l'innovazione e la creatività nel campo della generazione visiva auto-regressiva.
English
We present Open-MAGVIT2, a family of auto-regressive image generation models ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large codebook (i.e., 2^{18} codes), and achieves the state-of-the-art reconstruction performance (1.17 rFID) on ImageNet 256 times 256. Furthermore, we explore its application in plain auto-regressive models and validate scalability properties. To assist auto-regressive models in predicting with a super-large vocabulary, we factorize it into two sub-vocabulary of different sizes by asymmetric token factorization, and further introduce "next sub-token prediction" to enhance sub-token interaction for better generation quality. We release all models and codes to foster innovation and creativity in the field of auto-regressive visual generation.

Summary

AI-Generated Summary

PDF262November 16, 2024