X-Omni: Reinforcement Learning bringt diskrete autoregressive Bildgenerierungsmodelle zurück in die Erfolgsspur
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again
July 29, 2025
papers.authors: Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, Qinglin Lu, Han Hu, Xiaosong Zhang, Linus, Di Wang, Jie Jiang
cs.AI
papers.abstract
Zahlreiche Bemühungen wurden unternommen, das Paradigma der „Vorhersage des nächsten Tokens“ auf visuelle Inhalte auszuweiten, mit dem Ziel, einen einheitlichen Ansatz für sowohl die Bildgenerierung als auch das Bildverständnis zu schaffen. Dennoch waren Versuche, Bilder durch autoregressives Modellieren mit diskreten Tokens zu erzeugen, von Problemen wie geringer visueller Qualität, verzerrten Ausgaben und der Unfähigkeit, komplexe Anweisungen bei der Darstellung detaillierter Inhalte zu befolgen, geplagt. Diese Mängel sind wahrscheinlich auf kumulative Fehler während des autoregressiven Inferenzprozesses oder auf Informationsverluste während der Diskretisierung zurückzuführen. Vermutlich aufgrund dieser Herausforderung hat sich die aktuelle Forschung zunehmend darauf verlagert, die Bildgenerierung mit Diffusionszielen und die Sprachgenerierung mit autoregressiven Zielen gemeinsam zu trainieren, wodurch einheitliche Modellierungsansätze in den Hintergrund gerückt sind. In dieser Arbeit zeigen wir, dass Reinforcement Learning Artefakte effektiv reduzieren und die Generierungsqualität einer diskreten autoregressiven Modellierungsmethode erheblich verbessern kann, wodurch eine nahtlose Integration von Bild- und Sprachgenerierung ermöglicht wird. Unser Framework besteht aus einem semantischen Bild-Tokenizer, einem einheitlichen autoregressiven Modell für Sprache und Bilder sowie einem Offline-Diffusions-Decoder für die Bildgenerierung, genannt X-Omni. X-Omni erzielt mit einem 7B-Sprachmodell Spitzenleistungen in Bildgenerierungsaufgaben, erzeugt Bilder von hoher ästhetischer Qualität und zeigt starke Fähigkeiten in der Befolgung von Anweisungen und der Darstellung langer Texte.
English
Numerous efforts have been made to extend the ``next token prediction''
paradigm to visual contents, aiming to create a unified approach for both image
generation and understanding. Nevertheless, attempts to generate images through
autoregressive modeling with discrete tokens have been plagued by issues such
as low visual fidelity, distorted outputs, and failure to adhere to complex
instructions when rendering intricate details. These shortcomings are likely
attributed to cumulative errors during autoregressive inference or information
loss incurred during the discretization process. Probably due to this
challenge, recent research has increasingly shifted toward jointly training
image generation with diffusion objectives and language generation with
autoregressive objectives, moving away from unified modeling approaches. In
this work, we demonstrate that reinforcement learning can effectively mitigate
artifacts and largely enhance the generation quality of a discrete
autoregressive modeling method, thereby enabling seamless integration of image
and language generation. Our framework comprises a semantic image tokenizer, a
unified autoregressive model for both language and images, and an offline
diffusion decoder for image generation, termed X-Omni. X-Omni achieves
state-of-the-art performance in image generation tasks using a 7B language
model, producing images with high aesthetic quality while exhibiting strong
capabilities in following instructions and rendering long texts.