Cheers: La separazione dei dettagli patch dalle rappresentazioni semantiche abilita una comprensione e generazione multimodale unificata

Abstract

Un tema all'avanguardia nella modellazione multimodale è l'unificazione della comprensione e della generazione visiva all'interno di un singolo modello. Tuttavia, i due compiti richiedono regimi di decodifica e rappresentazioni visive non corrispondenti, rendendo non banale l'ottimizzazione congiunta in uno spazio di caratteristiche condiviso. In questo lavoro, presentiamo Cheers, un modello multimodale unificato che disaccoppia i dettagli a livello di patch dalle rappresentazioni semantiche, stabilizzando così la semantica per la comprensione multimodale e migliorando la fedeltà per la generazione di immagini tramite residui di dettaglio controllati (gated). Cheers include tre componenti chiave: (i) un tokenizzatore visivo unificato che codifica e comprime gli stati latenti dell'immagine in token semantici per un efficiente condizionamento del LLM, (ii) un Transformer basato su LLM che unifica la decodifica autoregressiva per la generazione di testo e la decodifica diffusion per la generazione di immagini, e (iii) una testa a flusso matching cascading che decodifica prima la semantica visiva e poi inietta residui di dettaglio semanticamente controllati dal tokenizzatore visivo per rifinire i contenuti ad alta frequenza. Esperimenti su benchmark consolidati dimostrano che Cheers eguaglia o supera UMM avanzati sia nella comprensione che nella generazione visiva. Cheers raggiunge anche una compressione dei token di 4x, consentendo una codifica e generazione di immagini ad alta risoluzione più efficiente. Notevolmente, Cheers supera il Tar-1.5B sui popolari benchmark GenEval e MMBench, richiedendo solo il 20% del costo di addestramento, indicando una modellazione multimodale unificata efficace ed efficiente (ovvero, compressione 4x dei token. Rilasceremo tutto il codice e i dati per future ricerche.

English

A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.

Cheers: La separazione dei dettagli patch dalle rappresentazioni semantiche abilita una comprensione e generazione multimodale unificata

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Abstract

Support