ChatPaper.aiChatPaper

X-Omni: Reinforcement Learning brengt discrete autoregressieve beeldgeneratieve modellen weer tot leven

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

July 29, 2025
Auteurs: Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, Qinglin Lu, Han Hu, Xiaosong Zhang, Linus, Di Wang, Jie Jiang
cs.AI

Samenvatting

Talloze inspanningen zijn geleverd om het paradigma van 'volgende tokenvoorspelling' uit te breiden naar visuele inhoud, met als doel een geïntegreerde aanpak te creëren voor zowel beeldgeneratie als -begrip. Pogingen om beelden te genereren via autoregressieve modellering met discrete tokens zijn echter geplaagd door problemen zoals lage visuele kwaliteit, vervormde uitvoer en het niet kunnen volgen van complexe instructies bij het weergeven van ingewikkelde details. Deze tekortkomingen zijn waarschijnlijk toe te schrijven aan cumulatieve fouten tijdens autoregressieve inferentie of informatieverlies tijdens het discretisatieproces. Waarschijnlijk vanwege deze uitdaging is recent onderzoek steeds meer verschoven naar het gezamenlijk trainen van beeldgeneratie met diffusiedoelstellingen en taalgeneratie met autoregressieve doelstellingen, waarbij geïntegreerde modelleringsbenaderingen worden vermeden. In dit werk tonen we aan dat reinforcement learning effectief artefacten kan verminderen en de generatiekwaliteit van een discrete autoregressieve modelleringsmethode aanzienlijk kan verbeteren, waardoor een naadloze integratie van beeld- en taalgeneratie mogelijk wordt. Ons framework bestaat uit een semantische beeldtokenizer, een geïntegreerd autoregressief model voor zowel taal als beelden, en een offline diffusiedecoder voor beeldgeneratie, genaamd X-Omni. X-Omni behaalt state-of-the-art prestaties in beeldgeneratietaken met behulp van een 7B-taalmodel, waarbij beelden met hoge esthetische kwaliteit worden geproduceerd en sterke capaciteiten worden getoond in het volgen van instructies en het weergeven van lange teksten.
English
Numerous efforts have been made to extend the ``next token prediction'' paradigm to visual contents, aiming to create a unified approach for both image generation and understanding. Nevertheless, attempts to generate images through autoregressive modeling with discrete tokens have been plagued by issues such as low visual fidelity, distorted outputs, and failure to adhere to complex instructions when rendering intricate details. These shortcomings are likely attributed to cumulative errors during autoregressive inference or information loss incurred during the discretization process. Probably due to this challenge, recent research has increasingly shifted toward jointly training image generation with diffusion objectives and language generation with autoregressive objectives, moving away from unified modeling approaches. In this work, we demonstrate that reinforcement learning can effectively mitigate artifacts and largely enhance the generation quality of a discrete autoregressive modeling method, thereby enabling seamless integration of image and language generation. Our framework comprises a semantic image tokenizer, a unified autoregressive model for both language and images, and an offline diffusion decoder for image generation, termed X-Omni. X-Omni achieves state-of-the-art performance in image generation tasks using a 7B language model, producing images with high aesthetic quality while exhibiting strong capabilities in following instructions and rendering long texts.
PDF363July 30, 2025