ChatPaper.aiChatPaper

X-Omni: Reinforcement Learning bringt diskrete autoregressive Bildgenerierungsmodelle zurück in die Erfolgsspur

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

July 29, 2025
papers.authors: Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, Qinglin Lu, Han Hu, Xiaosong Zhang, Linus, Di Wang, Jie Jiang
cs.AI

papers.abstract

Zahlreiche Bemühungen wurden unternommen, das Paradigma der „Vorhersage des nächsten Tokens“ auf visuelle Inhalte auszuweiten, mit dem Ziel, einen einheitlichen Ansatz für sowohl die Bildgenerierung als auch das Bildverständnis zu schaffen. Dennoch waren Versuche, Bilder durch autoregressives Modellieren mit diskreten Tokens zu erzeugen, von Problemen wie geringer visueller Qualität, verzerrten Ausgaben und der Unfähigkeit, komplexe Anweisungen bei der Darstellung detaillierter Inhalte zu befolgen, geplagt. Diese Mängel sind wahrscheinlich auf kumulative Fehler während des autoregressiven Inferenzprozesses oder auf Informationsverluste während der Diskretisierung zurückzuführen. Vermutlich aufgrund dieser Herausforderung hat sich die aktuelle Forschung zunehmend darauf verlagert, die Bildgenerierung mit Diffusionszielen und die Sprachgenerierung mit autoregressiven Zielen gemeinsam zu trainieren, wodurch einheitliche Modellierungsansätze in den Hintergrund gerückt sind. In dieser Arbeit zeigen wir, dass Reinforcement Learning Artefakte effektiv reduzieren und die Generierungsqualität einer diskreten autoregressiven Modellierungsmethode erheblich verbessern kann, wodurch eine nahtlose Integration von Bild- und Sprachgenerierung ermöglicht wird. Unser Framework besteht aus einem semantischen Bild-Tokenizer, einem einheitlichen autoregressiven Modell für Sprache und Bilder sowie einem Offline-Diffusions-Decoder für die Bildgenerierung, genannt X-Omni. X-Omni erzielt mit einem 7B-Sprachmodell Spitzenleistungen in Bildgenerierungsaufgaben, erzeugt Bilder von hoher ästhetischer Qualität und zeigt starke Fähigkeiten in der Befolgung von Anweisungen und der Darstellung langer Texte.
English
Numerous efforts have been made to extend the ``next token prediction'' paradigm to visual contents, aiming to create a unified approach for both image generation and understanding. Nevertheless, attempts to generate images through autoregressive modeling with discrete tokens have been plagued by issues such as low visual fidelity, distorted outputs, and failure to adhere to complex instructions when rendering intricate details. These shortcomings are likely attributed to cumulative errors during autoregressive inference or information loss incurred during the discretization process. Probably due to this challenge, recent research has increasingly shifted toward jointly training image generation with diffusion objectives and language generation with autoregressive objectives, moving away from unified modeling approaches. In this work, we demonstrate that reinforcement learning can effectively mitigate artifacts and largely enhance the generation quality of a discrete autoregressive modeling method, thereby enabling seamless integration of image and language generation. Our framework comprises a semantic image tokenizer, a unified autoregressive model for both language and images, and an offline diffusion decoder for image generation, termed X-Omni. X-Omni achieves state-of-the-art performance in image generation tasks using a 7B language model, producing images with high aesthetic quality while exhibiting strong capabilities in following instructions and rendering long texts.
PDF323July 30, 2025