ChatPaper.aiChatPaper

X-Omni : L'apprentissage par renforcement redonne toute leur puissance aux modèles génératifs d'images autorégressifs discrets

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

July 29, 2025
papers.authors: Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, Qinglin Lu, Han Hu, Xiaosong Zhang, Linus, Di Wang, Jie Jiang
cs.AI

papers.abstract

De nombreux efforts ont été déployés pour étendre le paradigme de la « prédiction du prochain jeton » aux contenus visuels, dans le but de créer une approche unifiée pour la génération et la compréhension d'images. Cependant, les tentatives de génération d'images par modélisation autorégressive avec des jetons discrets ont été entravées par des problèmes tels qu'une faible fidélité visuelle, des sorties déformées et une incapacité à respecter des instructions complexes lors du rendu de détails élaborés. Ces lacunes sont probablement attribuables à des erreurs cumulatives lors de l'inférence autorégressive ou à une perte d'information survenant pendant le processus de discrétisation. Probablement en raison de ce défi, les recherches récentes se sont de plus en plus orientées vers un entraînement conjoint de la génération d'images avec des objectifs de diffusion et de la génération de langage avec des objectifs autorégressifs, s'éloignant ainsi des approches de modélisation unifiée. Dans ce travail, nous démontrons que l'apprentissage par renforcement peut efficacement atténuer les artefacts et améliorer considérablement la qualité de génération d'une méthode de modélisation autorégressive discrète, permettant ainsi une intégration fluide de la génération d'images et de langage. Notre cadre comprend un tokeniseur d'images sémantiques, un modèle autorégressif unifié pour le langage et les images, et un décodeur de diffusion hors ligne pour la génération d'images, appelé X-Omni. X-Omni atteint des performances de pointe dans les tâches de génération d'images en utilisant un modèle de langage de 7 milliards de paramètres, produisant des images de haute qualité esthétique tout en démontrant de solides capacités à suivre les instructions et à rendre des textes longs.
English
Numerous efforts have been made to extend the ``next token prediction'' paradigm to visual contents, aiming to create a unified approach for both image generation and understanding. Nevertheless, attempts to generate images through autoregressive modeling with discrete tokens have been plagued by issues such as low visual fidelity, distorted outputs, and failure to adhere to complex instructions when rendering intricate details. These shortcomings are likely attributed to cumulative errors during autoregressive inference or information loss incurred during the discretization process. Probably due to this challenge, recent research has increasingly shifted toward jointly training image generation with diffusion objectives and language generation with autoregressive objectives, moving away from unified modeling approaches. In this work, we demonstrate that reinforcement learning can effectively mitigate artifacts and largely enhance the generation quality of a discrete autoregressive modeling method, thereby enabling seamless integration of image and language generation. Our framework comprises a semantic image tokenizer, a unified autoregressive model for both language and images, and an offline diffusion decoder for image generation, termed X-Omni. X-Omni achieves state-of-the-art performance in image generation tasks using a 7B language model, producing images with high aesthetic quality while exhibiting strong capabilities in following instructions and rendering long texts.
PDF323July 30, 2025