Unendlichkeit: Skalierung der Bitweisen AutoRegressiven Modellierung für die Synthese von hochauflösenden Bildern
Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
December 5, 2024
Autoren: Jian Han, Jinlai Liu, Yi Jiang, Bin Yan, Yuqi Zhang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
cs.AI
Zusammenfassung
Wir präsentieren Infinity, ein Bitweise visuelles AutoRegressionsmodell, das in der Lage ist, hochauflösende, fotorealistische Bilder gemäß sprachlicher Anweisungen zu generieren. Infinity definiert das visuelle AutoRegressionsmodell unter einem Bitweisen Token-Vorhersagerahmen mit einem unendlichen Vokabular-Tokenizer und Klassifizierer sowie einer bitweisen Selbstkorrekturmechanismus neu, was die Generierungskapazität und Details deutlich verbessert. Durch die theoretische Skalierung der Vokabulargröße des Tokenizers auf Unendlich und gleichzeitige Skalierung der Transformer-Größe entfaltet unsere Methode signifikant leistungsstarke Skalierungsfähigkeiten im Vergleich zu herkömmlichen VAR-Modellen. Infinity stellt einen neuen Rekord für autoRegressive Text-zu-Bild-Modelle auf, indem es Top-Tier Diffusionsmodelle wie SD3-Medium und SDXL übertrifft. Insbesondere übertrifft Infinity SD3-Medium, indem es den GenEval-Benchmark-Score von 0,62 auf 0,73 und den ImageReward-Benchmark-Score von 0,87 auf 0,96 verbessert und eine Gewinnrate von 66% erreicht. Ohne zusätzliche Optimierung generiert Infinity ein hochwertiges 1024x1024 Bild in 0,8 Sekunden, was es 2,6-mal schneller macht als SD3-Medium und es als das schnellste Text-zu-Bild-Modell etabliert. Modelle und Codes werden veröffentlicht, um die weitere Erforschung von Infinity für die visuelle Generierung und vereinheitlichte Tokenizer-Modellierung zu fördern.
English
We present Infinity, a Bitwise Visual AutoRegressive Modeling capable of
generating high-resolution, photorealistic images following language
instruction. Infinity redefines visual autoregressive model under a bitwise
token prediction framework with an infinite-vocabulary tokenizer & classifier
and bitwise self-correction mechanism, remarkably improving the generation
capacity and details. By theoretically scaling the tokenizer vocabulary size to
infinity and concurrently scaling the transformer size, our method
significantly unleashes powerful scaling capabilities compared to vanilla VAR.
Infinity sets a new record for autoregressive text-to-image models,
outperforming top-tier diffusion models like SD3-Medium and SDXL. Notably,
Infinity surpasses SD3-Medium by improving the GenEval benchmark score from
0.62 to 0.73 and the ImageReward benchmark score from 0.87 to 0.96, achieving a
win rate of 66%. Without extra optimization, Infinity generates a high-quality
1024x1024 image in 0.8 seconds, making it 2.6x faster than SD3-Medium and
establishing it as the fastest text-to-image model. Models and codes will be
released to promote further exploration of Infinity for visual generation and
unified tokenizer modeling.Summary
AI-Generated Summary