Infinito: Escalando la Modelización Autoregresiva Bit a Bit para la Síntesis de Imágenes de Alta Resolución
Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis
December 5, 2024
Autores: Jian Han, Jinlai Liu, Yi Jiang, Bin Yan, Yuqi Zhang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu
cs.AI
Resumen
Presentamos Infinity, un Modelo AutoRegresivo Visual Bitwise capaz de generar imágenes de alta resolución y fotorrealistas siguiendo instrucciones en lenguaje natural. Infinity redefine el modelo auto-regresivo visual bajo un marco de predicción de tokens bitwise con un tokenizador y clasificador de vocabulario infinito y un mecanismo de autocorrección bitwise, mejorando notablemente la capacidad de generación y los detalles. Al escalar teóricamente el tamaño del vocabulario del tokenizador a infinito y al mismo tiempo escalar el tamaño del transformador, nuestro método libera significativamente capacidades de escalado potentes en comparación con VAR convencionales. Infinity establece un nuevo récord para modelos texto-imagen auto-regresivos, superando a modelos de difusión de primer nivel como SD3-Medium y SDXL. Destacadamente, Infinity supera a SD3-Medium al mejorar la puntuación del benchmark GenEval de 0.62 a 0.73 y la puntuación del benchmark ImageReward de 0.87 a 0.96, logrando una tasa de éxito del 66%. Sin optimizaciones adicionales, Infinity genera una imagen de 1024x1024 de alta calidad en 0.8 segundos, siendo 2.6 veces más rápido que SD3-Medium y estableciéndose como el modelo texto-imagen más rápido. Los modelos y códigos serán publicados para fomentar una mayor exploración de Infinity para generación visual y modelado de tokenizador unificado.
English
We present Infinity, a Bitwise Visual AutoRegressive Modeling capable of
generating high-resolution, photorealistic images following language
instruction. Infinity redefines visual autoregressive model under a bitwise
token prediction framework with an infinite-vocabulary tokenizer & classifier
and bitwise self-correction mechanism, remarkably improving the generation
capacity and details. By theoretically scaling the tokenizer vocabulary size to
infinity and concurrently scaling the transformer size, our method
significantly unleashes powerful scaling capabilities compared to vanilla VAR.
Infinity sets a new record for autoregressive text-to-image models,
outperforming top-tier diffusion models like SD3-Medium and SDXL. Notably,
Infinity surpasses SD3-Medium by improving the GenEval benchmark score from
0.62 to 0.73 and the ImageReward benchmark score from 0.87 to 0.96, achieving a
win rate of 66%. Without extra optimization, Infinity generates a high-quality
1024x1024 image in 0.8 seconds, making it 2.6x faster than SD3-Medium and
establishing it as the fastest text-to-image model. Models and codes will be
released to promote further exploration of Infinity for visual generation and
unified tokenizer modeling.Summary
AI-Generated Summary