Cheers: O Desacoplamento de Detalhes de Patch das Representações Semânticas Possibilita uma Compreensão e Geração Multimodal Unificadas

Resumo

Um tema recente e de ponta na modelagem multimodal é a unificação da compreensão e da geração visual em um único modelo. No entanto, as duas tarefas exigem regimes de decodificação e representações visuais incompatíveis, tornando não trivial a otimização conjunta em um espaço de características compartilhado. Neste trabalho, apresentamos o Cheers, um modelo multimodal unificado que desacopla detalhes em nível de *patch* das representações semânticas, estabilizando assim a semântica para a compreensão multimodal e melhorando a fidelidade na geração de imagens por meio de resíduos de detalhes com portão (*gated*). O Cheers inclui três componentes principais: (i) um tokenizador visual unificado que codifica e comprime os estados latentes da imagem em *tokens* semânticos para um condicionamento eficiente de LLM, (ii) um Transformer baseado em LLM que unifica a decodagem autoregressiva para geração de texto e a decodagem por difusão para geração de imagem, e (iii) um cabeçalho em cascata de *flow matching* que primeiro decodifica a semântica visual e depois injeta resíduos de detalhes semanticamente controlados (*gated*) do tokenizador visual para refinar o conteúdo de alta frequência. Experimentos em *benchmarks* populares demonstram que o Cheers iguala ou supera UMMs avançados tanto na compreensão quanto na geração visual. O Cheers também alcança uma compressão de *token* 4x, permitindo uma codificação e geração de imagens de alta resolução mais eficientes. Notavelmente, o Cheers supera o Tar-1.5B nos populares *benchmarks* GenEval e MMBench, enquanto requer apenas 20% do custo de treinamento, indicando uma modelagem multimodal unificada eficaz e eficiente (ou seja, compressão de *token* 4x). Liberaremos todo o código e dados para pesquisas futuras.

English

A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.

Cheers: O Desacoplamento de Detalhes de Patch das Representações Semânticas Possibilita uma Compreensão e Geração Multimodal Unificadas

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Resumo

Support