ChatPaper.aiChatPaper

Open-MAGVIT2: Ein Open-Source-Projekt zur Demokratisierung der autoregressiven visuellen Generierung.

Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

September 6, 2024
Autoren: Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
cs.AI

Zusammenfassung

Wir präsentieren Open-MAGVIT2, eine Familie von autoregressiven Bildgenerierungsmodellen mit einer Kapazität von 300M bis 1.5B. Das Open-MAGVIT2-Projekt erstellt eine Open-Source-Replikation des MAGVIT-v2-Tokenizers von Google, einem Tokenizer mit einem sehr großen Codebuch (d.h. 2^{18} Codes), und erzielt eine Spitzenleistung bei der Rekonstruktion (1.17 rFID) auf ImageNet 256 mal 256. Darüber hinaus erforschen wir seine Anwendung in einfachen autoregressiven Modellen und validieren Skalierungseigenschaften. Um autoregressive Modelle bei der Vorhersage mit einem sehr großen Vokabular zu unterstützen, faktorisieren wir es in zwei Teilvokabulare unterschiedlicher Größe durch asymmetrische Tokenfaktorisierung und führen zusätzlich die "next sub-token prediction" ein, um die Interaktion zwischen Teil-Token zur Verbesserung der Generierungsqualität zu verstärken. Wir veröffentlichen alle Modelle und Codes, um Innovation und Kreativität im Bereich der autoregressiven visuellen Generierung zu fördern.
English
We present Open-MAGVIT2, a family of auto-regressive image generation models ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source replication of Google's MAGVIT-v2 tokenizer, a tokenizer with a super-large codebook (i.e., 2^{18} codes), and achieves the state-of-the-art reconstruction performance (1.17 rFID) on ImageNet 256 times 256. Furthermore, we explore its application in plain auto-regressive models and validate scalability properties. To assist auto-regressive models in predicting with a super-large vocabulary, we factorize it into two sub-vocabulary of different sizes by asymmetric token factorization, and further introduce "next sub-token prediction" to enhance sub-token interaction for better generation quality. We release all models and codes to foster innovation and creativity in the field of auto-regressive visual generation.

Summary

AI-Generated Summary

PDF262November 16, 2024