Cheers: 패치 세부 정보와 의미 표현의 분리를 통한 통합 멀티모달 이해 및 생성
Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation
March 13, 2026
저자: Yichen Zhang, Da Peng, Zonghao Guo, Zijian Zhang, Xuesong Yang, Tong Sun, Shichu Sun, Yidan Zhang, Yanghao Li, Haiyan Zhao, Wang Xu, Qi Shi, Yangang Sun, Chi Chen, Shuo Wang, Yukun Yan, Xu Han, Qiang Ma, Wei Ke, Liang Wang, Zhiyuan Liu, Maosong Sun
cs.AI
초록
최근 멀티모달 모델링 분야에서 주목받는 최첨단 주제는 단일 모델 내에서 시각적 이해와 생성을 통합하는 것입니다. 그러나 이 두 작업은 서로 맞지 않는 디코딩 체계와 시각적 표현을 요구하므로, 공유된 특징 공간에서의 공동 최적화는 간단하지 않은 과제입니다. 본 연구에서는 패치 수준의 세부 정보를 의미론적 표현으로부터 분리함으로써 멀티모달 이해를 위한 의미론적 안정성을 확보하고 게이트된 세부 잔차를 통해 이미지 생성의 정확도를 향상하는 통합 멀티모달 모델인 Cheers를 제시합니다. Cheers는 세 가지 핵심 구성 요소로 이루어집니다: (i) 이미지 잠재 상태를 의미론적 토큰으로 인코딩 및 압축하여 효율적인 LLM 조건화를 가능하게 하는 통합 비전 토크나이저, (ii) 텍스트 생성을 위한 자기회귀 디코딩과 이미지 생성을 위한 디퓨전 디코딩을 통합하는 LLM 기반 트랜스포머, (iii) 시각적 의미론을 먼저 디코딩한 후 비전 토크나이저의 의미론적으로 게이트된 세부 잔차를 주입하여 고주파 콘텐츠를 정제하는 캐스케이드 플로우 매칭 헤드. 인기 벤치마크에서의 실험 결과, Cheers는 시각적 이해와 생성 모두에서 최신 UMMs을 능가하거나 동등한 성능을 보였습니다. 또한 Cheers는 4배의 토큰 압축을 달성하여 더 효율적인 고해상도 이미지 인코딩 및 생성을 가능하게 합니다. 특히 Cheers는 인기 벤치마크인 GenEval과 MMBench에서 Tar-1.5B를 능가하는 동시에 훈련 비용의 20%만을 요구하여 효과적이면서도 효율적인(즉, 4배 토큰 압축) 통합 멀티모달 모델링을 입증했습니다. 향후 연구를 위해 모든 코드와 데이터를 공개할 예정입니다.
English
A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.