ChatPaper.aiChatPaper

X-Omni: O Aprendizado por Reforço Torna os Modelos Gerativos de Imagens Autoregressivos Discretos Excelentes Novamente

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

July 29, 2025
Autores: Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, Qinglin Lu, Han Hu, Xiaosong Zhang, Linus, Di Wang, Jie Jiang
cs.AI

Resumo

Numerosos esforços têm sido feitos para estender o paradigma de "previsão do próximo token" para conteúdos visuais, visando criar uma abordagem unificada tanto para a geração quanto para a compreensão de imagens. No entanto, tentativas de gerar imagens por meio de modelagem autoregressiva com tokens discretos têm sido prejudicadas por problemas como baixa fidelidade visual, distorções nas saídas e falha em aderir a instruções complexas ao renderizar detalhes intrincados. Essas deficiências são provavelmente atribuídas a erros cumulativos durante a inferência autoregressiva ou à perda de informação ocorrida durante o processo de discretização. Provavelmente devido a esse desafio, pesquisas recentes têm se voltado cada vez mais para o treinamento conjunto de geração de imagens com objetivos de difusão e geração de linguagem com objetivos autoregressivos, afastando-se de abordagens de modelagem unificada. Neste trabalho, demonstramos que o aprendizado por reforço pode efetivamente mitigar artefatos e ampliar significativamente a qualidade de geração de um método de modelagem autoregressiva discreta, permitindo assim a integração perfeita da geração de imagens e linguagem. Nosso framework consiste em um tokenizador semântico de imagens, um modelo autoregressivo unificado para linguagem e imagens, e um decodificador de difusão offline para geração de imagens, denominado X-Omni. O X-Omni alcança desempenho de ponta em tarefas de geração de imagens utilizando um modelo de linguagem de 7B, produzindo imagens com alta qualidade estética enquanto exibe fortes capacidades em seguir instruções e renderizar textos longos.
English
Numerous efforts have been made to extend the ``next token prediction'' paradigm to visual contents, aiming to create a unified approach for both image generation and understanding. Nevertheless, attempts to generate images through autoregressive modeling with discrete tokens have been plagued by issues such as low visual fidelity, distorted outputs, and failure to adhere to complex instructions when rendering intricate details. These shortcomings are likely attributed to cumulative errors during autoregressive inference or information loss incurred during the discretization process. Probably due to this challenge, recent research has increasingly shifted toward jointly training image generation with diffusion objectives and language generation with autoregressive objectives, moving away from unified modeling approaches. In this work, we demonstrate that reinforcement learning can effectively mitigate artifacts and largely enhance the generation quality of a discrete autoregressive modeling method, thereby enabling seamless integration of image and language generation. Our framework comprises a semantic image tokenizer, a unified autoregressive model for both language and images, and an offline diffusion decoder for image generation, termed X-Omni. X-Omni achieves state-of-the-art performance in image generation tasks using a 7B language model, producing images with high aesthetic quality while exhibiting strong capabilities in following instructions and rendering long texts.
PDF383July 30, 2025