Open-MAGVIT2: Открытый проект в направлении демократизации авторегрессивной визуальной генерации.
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation
September 6, 2024
Авторы: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
cs.AI
Аннотация
Мы представляем Open-MAGVIT2, семейство моделей авторегрессивной генерации изображений от 300 миллионов до 1,5 миллиарда. Проект Open-MAGVIT2 создает открытую реплику токенизатора Google MAGVIT-v2, токенизатора с супер-большим кодовым книгом (т.е. 2^{18} кодов), достигающего передовых показателей восстановления (1,17 rFID) на ImageNet 256 на 256. Кроме того, мы исследуем его применение в обычных авторегрессивных моделях и проверяем свойства масштабируемости. Чтобы помочь авторегрессивным моделям в предсказании с супер-большим словарем, мы факторизуем его на два подсловаря разных размеров с помощью асимметричной факторизации токенов и дополнительно вводим "предсказание следующего подтокена" для улучшения взаимодействия подтокенов для повышения качества генерации. Мы публикуем все модели и коды для поощрения инноваций и креативности в области авторегрессивной визуальной генерации.
English
We present Open-MAGVIT2, a family of auto-regressive image generation models
ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source
replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large
codebook (i.e., 2^{18} codes), and achieves the state-of-the-art
reconstruction performance (1.17 rFID) on ImageNet 256 times 256.
Furthermore, we explore its application in plain auto-regressive models and
validate scalability properties. To assist auto-regressive models in predicting
with a super-large vocabulary, we factorize it into two sub-vocabulary of
different sizes by asymmetric token factorization, and further introduce "next
sub-token prediction" to enhance sub-token interaction for better generation
quality. We release all models and codes to foster innovation and creativity in
the field of auto-regressive visual generation.Summary
AI-Generated Summary