Unendlichkeit: Skalierung der Bitweisen AutoRegressiven Modellierung für die Synthese von hochauflösenden Bildern

Zusammenfassung

Wir präsentieren Infinity, ein Bitweise visuelles AutoRegressionsmodell, das in der Lage ist, hochauflösende, fotorealistische Bilder gemäß sprachlicher Anweisungen zu generieren. Infinity definiert das visuelle AutoRegressionsmodell unter einem Bitweisen Token-Vorhersagerahmen mit einem unendlichen Vokabular-Tokenizer und Klassifizierer sowie einer bitweisen Selbstkorrekturmechanismus neu, was die Generierungskapazität und Details deutlich verbessert. Durch die theoretische Skalierung der Vokabulargröße des Tokenizers auf Unendlich und gleichzeitige Skalierung der Transformer-Größe entfaltet unsere Methode signifikant leistungsstarke Skalierungsfähigkeiten im Vergleich zu herkömmlichen VAR-Modellen. Infinity stellt einen neuen Rekord für autoRegressive Text-zu-Bild-Modelle auf, indem es Top-Tier Diffusionsmodelle wie SD3-Medium und SDXL übertrifft. Insbesondere übertrifft Infinity SD3-Medium, indem es den GenEval-Benchmark-Score von 0,62 auf 0,73 und den ImageReward-Benchmark-Score von 0,87 auf 0,96 verbessert und eine Gewinnrate von 66% erreicht. Ohne zusätzliche Optimierung generiert Infinity ein hochwertiges 1024x1024 Bild in 0,8 Sekunden, was es 2,6-mal schneller macht als SD3-Medium und es als das schnellste Text-zu-Bild-Modell etabliert. Modelle und Codes werden veröffentlicht, um die weitere Erforschung von Infinity für die visuelle Generierung und vereinheitlichte Tokenizer-Modellierung zu fördern.

English

We present Infinity, a Bitwise Visual AutoRegressive Modeling capable of generating high-resolution, photorealistic images following language instruction. Infinity redefines visual autoregressive model under a bitwise token prediction framework with an infinite-vocabulary tokenizer & classifier and bitwise self-correction mechanism, remarkably improving the generation capacity and details. By theoretically scaling the tokenizer vocabulary size to infinity and concurrently scaling the transformer size, our method significantly unleashes powerful scaling capabilities compared to vanilla VAR. Infinity sets a new record for autoregressive text-to-image models, outperforming top-tier diffusion models like SD3-Medium and SDXL. Notably, Infinity surpasses SD3-Medium by improving the GenEval benchmark score from 0.62 to 0.73 and the ImageReward benchmark score from 0.87 to 0.96, achieving a win rate of 66%. Without extra optimization, Infinity generates a high-quality 1024x1024 image in 0.8 seconds, making it 2.6x faster than SD3-Medium and establishing it as the fastest text-to-image model. Models and codes will be released to promote further exploration of Infinity for visual generation and unified tokenizer modeling.