ChatPaper.aiChatPaper

X-Omni: L'Apprendimento per Rinforzo Rende di Nuovo Eccellenti i Modelli Autoregressivi Discreti per la Generazione di Immagini

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

July 29, 2025
Autori: Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, Qinglin Lu, Han Hu, Xiaosong Zhang, Linus, Di Wang, Jie Jiang
cs.AI

Abstract

Numerosi sforzi sono stati compiuti per estendere il paradigma della "predizione del token successivo" ai contenuti visivi, con l'obiettivo di creare un approccio unificato sia per la generazione che per la comprensione delle immagini. Tuttavia, i tentativi di generare immagini attraverso modellazione autoregressiva con token discreti sono stati afflitti da problemi come bassa fedeltà visiva, output distorti e incapacità di seguire istruzioni complesse durante il rendering di dettagli intricati. Queste carenze sono probabilmente attribuibili a errori cumulativi durante l'inferenza autoregressiva o alla perdita di informazioni durante il processo di discretizzazione. Probabilmente a causa di questa sfida, la ricerca recente si è sempre più orientata verso l'addestramento congiunto della generazione di immagini con obiettivi di diffusione e della generazione del linguaggio con obiettivi autoregressivi, allontanandosi dagli approcci di modellazione unificata. In questo lavoro, dimostriamo che l'apprendimento per rinforzo può mitigare efficacemente gli artefatti e migliorare significativamente la qualità della generazione di un metodo di modellazione autoregressiva discreta, consentendo così un'integrazione senza soluzione di continuità tra la generazione di immagini e linguaggio. Il nostro framework comprende un tokenizer semantico di immagini, un modello autoregressivo unificato per linguaggio e immagini, e un decoder di diffusione offline per la generazione di immagini, denominato X-Omni. X-Omni raggiunge prestazioni all'avanguardia nei compiti di generazione di immagini utilizzando un modello linguistico da 7B, producendo immagini di alta qualità estetica e dimostrando forti capacità nel seguire istruzioni e nel rendere testi lunghi.
English
Numerous efforts have been made to extend the ``next token prediction'' paradigm to visual contents, aiming to create a unified approach for both image generation and understanding. Nevertheless, attempts to generate images through autoregressive modeling with discrete tokens have been plagued by issues such as low visual fidelity, distorted outputs, and failure to adhere to complex instructions when rendering intricate details. These shortcomings are likely attributed to cumulative errors during autoregressive inference or information loss incurred during the discretization process. Probably due to this challenge, recent research has increasingly shifted toward jointly training image generation with diffusion objectives and language generation with autoregressive objectives, moving away from unified modeling approaches. In this work, we demonstrate that reinforcement learning can effectively mitigate artifacts and largely enhance the generation quality of a discrete autoregressive modeling method, thereby enabling seamless integration of image and language generation. Our framework comprises a semantic image tokenizer, a unified autoregressive model for both language and images, and an offline diffusion decoder for image generation, termed X-Omni. X-Omni achieves state-of-the-art performance in image generation tasks using a 7B language model, producing images with high aesthetic quality while exhibiting strong capabilities in following instructions and rendering long texts.
PDF343July 30, 2025