X-Omni: Обучение с подкреплением возвращает мощь дискретным авторегрессионным моделям генерации изображений
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again
July 29, 2025
Авторы: Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, Qinglin Lu, Han Hu, Xiaosong Zhang, Linus, Di Wang, Jie Jiang
cs.AI
Аннотация
Многочисленные усилия были направлены на расширение парадигмы «предсказания следующего токена» на визуальные данные с целью создания унифицированного подхода как для генерации изображений, так и для их понимания. Тем не менее, попытки генерации изображений с помощью авторегрессионного моделирования с использованием дискретных токенов сталкивались с такими проблемами, как низкая визуальная точность, искаженные результаты и неспособность следовать сложным инструкциям при отображении деталей. Эти недостатки, вероятно, связаны с накоплением ошибок в процессе авторегрессионного вывода или потерей информации при дискретизации. Вероятно, из-за этой сложности последние исследования все чаще смещаются в сторону совместного обучения генерации изображений с использованием диффузионных целей и генерации текста с авторегрессионными целями, отходя от унифицированных подходов. В данной работе мы демонстрируем, что обучение с подкреплением может эффективно устранять артефакты и значительно повышать качество генерации при использовании дискретного авторегрессионного моделирования, что позволяет достичь бесшовной интеграции генерации изображений и текста. Наша структура включает семантический токенизатор изображений, унифицированную авторегрессионную модель для текста и изображений, а также автономный диффузионный декодер для генерации изображений, названный X-Omni. X-Omni достигает наилучших результатов в задачах генерации изображений с использованием языковой модели на 7 миллиардов параметров, создавая изображения с высокой эстетической качеством и демонстрируя сильные способности в следовании инструкциям и отображении длинных текстов.
English
Numerous efforts have been made to extend the ``next token prediction''
paradigm to visual contents, aiming to create a unified approach for both image
generation and understanding. Nevertheless, attempts to generate images through
autoregressive modeling with discrete tokens have been plagued by issues such
as low visual fidelity, distorted outputs, and failure to adhere to complex
instructions when rendering intricate details. These shortcomings are likely
attributed to cumulative errors during autoregressive inference or information
loss incurred during the discretization process. Probably due to this
challenge, recent research has increasingly shifted toward jointly training
image generation with diffusion objectives and language generation with
autoregressive objectives, moving away from unified modeling approaches. In
this work, we demonstrate that reinforcement learning can effectively mitigate
artifacts and largely enhance the generation quality of a discrete
autoregressive modeling method, thereby enabling seamless integration of image
and language generation. Our framework comprises a semantic image tokenizer, a
unified autoregressive model for both language and images, and an offline
diffusion decoder for image generation, termed X-Omni. X-Omni achieves
state-of-the-art performance in image generation tasks using a 7B language
model, producing images with high aesthetic quality while exhibiting strong
capabilities in following instructions and rendering long texts.