Cheers: O Desacoplamento de Detalhes de Patch das Representações Semânticas Possibilita uma Compreensão e Geração Multimodal Unificadas
Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation
March 13, 2026
Autores: Yichen Zhang, Da Peng, Zonghao Guo, Zijian Zhang, Xuesong Yang, Tong Sun, Shichu Sun, Yidan Zhang, Yanghao Li, Haiyan Zhao, Wang Xu, Qi Shi, Yangang Sun, Chi Chen, Shuo Wang, Yukun Yan, Xu Han, Qiang Ma, Wei Ke, Liang Wang, Zhiyuan Liu, Maosong Sun
cs.AI
Resumo
Um tema recente e de ponta na modelagem multimodal é a unificação da compreensão e da geração visual em um único modelo. No entanto, as duas tarefas exigem regimes de decodificação e representações visuais incompatíveis, tornando não trivial a otimização conjunta em um espaço de características compartilhado. Neste trabalho, apresentamos o Cheers, um modelo multimodal unificado que desacopla detalhes em nível de *patch* das representações semânticas, estabilizando assim a semântica para a compreensão multimodal e melhorando a fidelidade na geração de imagens por meio de resíduos de detalhes com portão (*gated*). O Cheers inclui três componentes principais: (i) um tokenizador visual unificado que codifica e comprime os estados latentes da imagem em *tokens* semânticos para um condicionamento eficiente de LLM, (ii) um Transformer baseado em LLM que unifica a decodagem autoregressiva para geração de texto e a decodagem por difusão para geração de imagem, e (iii) um cabeçalho em cascata de *flow matching* que primeiro decodifica a semântica visual e depois injeta resíduos de detalhes semanticamente controlados (*gated*) do tokenizador visual para refinar o conteúdo de alta frequência. Experimentos em *benchmarks* populares demonstram que o Cheers iguala ou supera UMMs avançados tanto na compreensão quanto na geração visual. O Cheers também alcança uma compressão de *token* 4x, permitindo uma codificação e geração de imagens de alta resolução mais eficientes. Notavelmente, o Cheers supera o Tar-1.5B nos populares *benchmarks* GenEval e MMBench, enquanto requer apenas 20% do custo de treinamento, indicando uma modelagem multimodal unificada eficaz e eficiente (ou seja, compressão de *token* 4x). Liberaremos todo o código e dados para pesquisas futuras.
English
A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.