Open-MAGVIT2: Un Proyecto de Código Abierto Hacia la Democratización de la Generación Visual Auto-regresiva
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation
September 6, 2024
Autores: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
cs.AI
Resumen
Presentamos Open-MAGVIT2, una familia de modelos de generación de imágenes auto-regresivos que van desde 300M hasta 1.5B. El proyecto Open-MAGVIT2 produce una réplica de código abierto del tokenizador MAGVIT-v2 de Google, un tokenizador con un libro de códigos super grande (es decir, 2^{18} códigos), y logra un rendimiento de reconstrucción de vanguardia (1.17 rFID) en ImageNet 256 veces 256. Además, exploramos su aplicación en modelos auto-regresivos simples y validamos propiedades de escalabilidad. Para ayudar a los modelos auto-regresivos a predecir con un vocabulario super grande, lo factorizamos en dos subvocabularios de diferentes tamaños mediante factorización asimétrica de tokens, e introducimos "predicción de próximo sub-token" para mejorar la interacción de sub-tokens para una mejor calidad de generación. Publicamos todos los modelos y códigos para fomentar la innovación y creatividad en el campo de la generación visual auto-regresiva.
English
We present Open-MAGVIT2, a family of auto-regressive image generation models
ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source
replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large
codebook (i.e., 2^{18} codes), and achieves the state-of-the-art
reconstruction performance (1.17 rFID) on ImageNet 256 times 256.
Furthermore, we explore its application in plain auto-regressive models and
validate scalability properties. To assist auto-regressive models in predicting
with a super-large vocabulary, we factorize it into two sub-vocabulary of
different sizes by asymmetric token factorization, and further introduce "next
sub-token prediction" to enhance sub-token interaction for better generation
quality. We release all models and codes to foster innovation and creativity in
the field of auto-regressive visual generation.Summary
AI-Generated Summary