X-Omni: 강화 학습을 통한 이산 자기회귀 이미지 생성 모델의 재도약
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again
July 29, 2025
저자: Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, Qinglin Lu, Han Hu, Xiaosong Zhang, Linus, Di Wang, Jie Jiang
cs.AI
초록
시각적 콘텐츠에 대한 "다음 토큰 예측" 패러다임을 확장하여 이미지 생성과 이해를 위한 통합 접근 방식을 구축하려는 수많은 노력이 이루어져 왔다. 그러나 이산 토큰을 사용한 자기회귀 모델링을 통해 이미지를 생성하려는 시도는 낮은 시각적 충실도, 왜곡된 출력, 복잡한 세부 사항을 렌더링할 때 지시를 따르지 못하는 등의 문제로 인해 어려움을 겪어 왔다. 이러한 단점은 자기회귀 추론 과정에서 누적되는 오류나 이산화 과정에서 발생하는 정보 손실로 인한 것으로 보인다. 이러한 문제로 인해 최근 연구는 통합 모델링 접근 방식에서 벗어나 확산 목표를 사용한 이미지 생성과 자기회귀 목표를 사용한 언어 생성을 함께 훈련하는 방향으로 점점 더 전환되고 있다. 본 연구에서는 강화 학습이 이산 자기회귀 모델링 방법의 아티팩트를 효과적으로 완화하고 생성 품질을 크게 향상시켜 이미지와 언어 생성을 원활하게 통합할 수 있음을 보여준다. 우리의 프레임워크는 의미론적 이미지 토크나이저, 언어와 이미지를 위한 통합 자기회귀 모델, 그리고 이미지 생성을 위한 오프라인 확산 디코더로 구성되며, 이를 X-Omni라고 명명한다. X-Omni는 7B 언어 모델을 사용하여 이미지 생성 작업에서 최첨단 성능을 달성하며, 높은 미적 품질의 이미지를 생성하면서도 지시를 따르고 긴 텍스트를 렌더링하는 데 강력한 능력을 보여준다.
English
Numerous efforts have been made to extend the ``next token prediction''
paradigm to visual contents, aiming to create a unified approach for both image
generation and understanding. Nevertheless, attempts to generate images through
autoregressive modeling with discrete tokens have been plagued by issues such
as low visual fidelity, distorted outputs, and failure to adhere to complex
instructions when rendering intricate details. These shortcomings are likely
attributed to cumulative errors during autoregressive inference or information
loss incurred during the discretization process. Probably due to this
challenge, recent research has increasingly shifted toward jointly training
image generation with diffusion objectives and language generation with
autoregressive objectives, moving away from unified modeling approaches. In
this work, we demonstrate that reinforcement learning can effectively mitigate
artifacts and largely enhance the generation quality of a discrete
autoregressive modeling method, thereby enabling seamless integration of image
and language generation. Our framework comprises a semantic image tokenizer, a
unified autoregressive model for both language and images, and an offline
diffusion decoder for image generation, termed X-Omni. X-Omni achieves
state-of-the-art performance in image generation tasks using a 7B language
model, producing images with high aesthetic quality while exhibiting strong
capabilities in following instructions and rendering long texts.