ChatPaper.aiChatPaper

Cheers: La separazione dei dettagli patch dalle rappresentazioni semantiche abilita una comprensione e generazione multimodale unificata

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

March 13, 2026
Autori: Yichen Zhang, Da Peng, Zonghao Guo, Zijian Zhang, Xuesong Yang, Tong Sun, Shichu Sun, Yidan Zhang, Yanghao Li, Haiyan Zhao, Wang Xu, Qi Shi, Yangang Sun, Chi Chen, Shuo Wang, Yukun Yan, Xu Han, Qiang Ma, Wei Ke, Liang Wang, Zhiyuan Liu, Maosong Sun
cs.AI

Abstract

Un tema all'avanguardia nella modellazione multimodale è l'unificazione della comprensione e della generazione visiva all'interno di un singolo modello. Tuttavia, i due compiti richiedono regimi di decodifica e rappresentazioni visive non corrispondenti, rendendo non banale l'ottimizzazione congiunta in uno spazio di caratteristiche condiviso. In questo lavoro, presentiamo Cheers, un modello multimodale unificato che disaccoppia i dettagli a livello di patch dalle rappresentazioni semantiche, stabilizzando così la semantica per la comprensione multimodale e migliorando la fedeltà per la generazione di immagini tramite residui di dettaglio controllati (gated). Cheers include tre componenti chiave: (i) un tokenizzatore visivo unificato che codifica e comprime gli stati latenti dell'immagine in token semantici per un efficiente condizionamento del LLM, (ii) un Transformer basato su LLM che unifica la decodifica autoregressiva per la generazione di testo e la decodifica diffusion per la generazione di immagini, e (iii) una testa a flusso matching cascading che decodifica prima la semantica visiva e poi inietta residui di dettaglio semanticamente controllati dal tokenizzatore visivo per rifinire i contenuti ad alta frequenza. Esperimenti su benchmark consolidati dimostrano che Cheers eguaglia o supera UMM avanzati sia nella comprensione che nella generazione visiva. Cheers raggiunge anche una compressione dei token di 4x, consentendo una codifica e generazione di immagini ad alta risoluzione più efficiente. Notevolmente, Cheers supera il Tar-1.5B sui popolari benchmark GenEval e MMBench, richiedendo solo il 20% del costo di addestramento, indicando una modellazione multimodale unificata efficace ed efficiente (ovvero, compressione 4x dei token. Rilasceremo tutto il codice e i dati per future ricerche.
English
A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.
PDF383March 30, 2026