Open-MAGVIT2: Um Projeto de Código Aberto Rumo à Democratização da Geração Visual Auto-regressiva
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation
September 6, 2024
Autores: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
cs.AI
Resumo
Apresentamos o Open-MAGVIT2, uma família de modelos de geração de imagens auto-regressivos variando de 300M a 1.5B. O projeto Open-MAGVIT2 produz uma replicação de código aberto do tokenizador MAGVIT-v2 do Google, um tokenizador com um codebook super grande (ou seja, 2^{18} códigos), e alcança o desempenho de reconstrução de última geração (1.17 rFID) no ImageNet 256 vezes 256. Além disso, exploramos sua aplicação em modelos auto-regressivos simples e validamos propriedades de escalabilidade. Para auxiliar modelos auto-regressivos na previsão com um vocabulário super grande, o dividimos em duas subvocabulários de tamanhos diferentes por meio de uma fatorização de token assimétrica, e introduzimos ainda a "próxima previsão de sub-token" para aprimorar a interação de sub-tokens para uma melhor qualidade de geração. Disponibilizamos todos os modelos e códigos para fomentar a inovação e criatividade no campo da geração visual auto-regressiva.
English
We present Open-MAGVIT2, a family of auto-regressive image generation models
ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source
replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large
codebook (i.e., 2^{18} codes), and achieves the state-of-the-art
reconstruction performance (1.17 rFID) on ImageNet 256 times 256.
Furthermore, we explore its application in plain auto-regressive models and
validate scalability properties. To assist auto-regressive models in predicting
with a super-large vocabulary, we factorize it into two sub-vocabulary of
different sizes by asymmetric token factorization, and further introduce "next
sub-token prediction" to enhance sub-token interaction for better generation
quality. We release all models and codes to foster innovation and creativity in
the field of auto-regressive visual generation.Summary
AI-Generated Summary