ChatPaper.aiChatPaper

Open-MAGVIT2: Un Proyecto de Código Abierto Hacia la Democratización de la Generación Visual Auto-regresiva

Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

September 6, 2024
Autores: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
cs.AI

Resumen

Presentamos Open-MAGVIT2, una familia de modelos de generación de imágenes auto-regresivos que van desde 300M hasta 1.5B. El proyecto Open-MAGVIT2 produce una réplica de código abierto del tokenizador MAGVIT-v2 de Google, un tokenizador con un libro de códigos super grande (es decir, 2^{18} códigos), y logra un rendimiento de reconstrucción de vanguardia (1.17 rFID) en ImageNet 256 veces 256. Además, exploramos su aplicación en modelos auto-regresivos simples y validamos propiedades de escalabilidad. Para ayudar a los modelos auto-regresivos a predecir con un vocabulario super grande, lo factorizamos en dos subvocabularios de diferentes tamaños mediante factorización asimétrica de tokens, e introducimos "predicción de próximo sub-token" para mejorar la interacción de sub-tokens para una mejor calidad de generación. Publicamos todos los modelos y códigos para fomentar la innovación y creatividad en el campo de la generación visual auto-regresiva.
English
We present Open-MAGVIT2, a family of auto-regressive image generation models ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large codebook (i.e., 2^{18} codes), and achieves the state-of-the-art reconstruction performance (1.17 rFID) on ImageNet 256 times 256. Furthermore, we explore its application in plain auto-regressive models and validate scalability properties. To assist auto-regressive models in predicting with a super-large vocabulary, we factorize it into two sub-vocabulary of different sizes by asymmetric token factorization, and further introduce "next sub-token prediction" to enhance sub-token interaction for better generation quality. We release all models and codes to foster innovation and creativity in the field of auto-regressive visual generation.

Summary

AI-Generated Summary

PDF262November 16, 2024