X-Omni: El Aprendizaje por Refuerzo Revitaliza los Modelos Generativos de Imágenes Autoregresivos Discretos
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again
July 29, 2025
Autores: Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, Qinglin Lu, Han Hu, Xiaosong Zhang, Linus, Di Wang, Jie Jiang
cs.AI
Resumen
Se han realizado numerosos esfuerzos para extender el paradigma de "predicción del siguiente token" a contenidos visuales, con el objetivo de crear un enfoque unificado tanto para la generación como para la comprensión de imágenes. Sin embargo, los intentos de generar imágenes mediante modelado autorregresivo con tokens discretos se han visto afectados por problemas como baja fidelidad visual, distorsiones en las salidas y dificultades para seguir instrucciones complejas al renderizar detalles intrincados. Estas limitaciones probablemente se atribuyan a errores acumulativos durante la inferencia autorregresiva o a la pérdida de información ocurrida durante el proceso de discretización. Posiblemente debido a este desafío, investigaciones recientes han ido desplazándose hacia el entrenamiento conjunto de la generación de imágenes con objetivos de difusión y la generación de lenguaje con objetivos autorregresivos, alejándose de enfoques de modelado unificado. En este trabajo, demostramos que el aprendizaje por refuerzo puede mitigar eficazmente los artefactos y mejorar significativamente la calidad de generación de un método de modelado autorregresivo discreto, permitiendo así una integración fluida de la generación de imágenes y lenguaje. Nuestro marco de trabajo incluye un tokenizador semántico de imágenes, un modelo autorregresivo unificado para lenguaje e imágenes, y un decodificador de difusión offline para la generación de imágenes, denominado X-Omni. X-Omni logra un rendimiento de vanguardia en tareas de generación de imágenes utilizando un modelo de lenguaje de 7B, produciendo imágenes de alta calidad estética mientras exhibe una fuerte capacidad para seguir instrucciones y renderizar textos largos.
English
Numerous efforts have been made to extend the ``next token prediction''
paradigm to visual contents, aiming to create a unified approach for both image
generation and understanding. Nevertheless, attempts to generate images through
autoregressive modeling with discrete tokens have been plagued by issues such
as low visual fidelity, distorted outputs, and failure to adhere to complex
instructions when rendering intricate details. These shortcomings are likely
attributed to cumulative errors during autoregressive inference or information
loss incurred during the discretization process. Probably due to this
challenge, recent research has increasingly shifted toward jointly training
image generation with diffusion objectives and language generation with
autoregressive objectives, moving away from unified modeling approaches. In
this work, we demonstrate that reinforcement learning can effectively mitigate
artifacts and largely enhance the generation quality of a discrete
autoregressive modeling method, thereby enabling seamless integration of image
and language generation. Our framework comprises a semantic image tokenizer, a
unified autoregressive model for both language and images, and an offline
diffusion decoder for image generation, termed X-Omni. X-Omni achieves
state-of-the-art performance in image generation tasks using a 7B language
model, producing images with high aesthetic quality while exhibiting strong
capabilities in following instructions and rendering long texts.