Cheers : Découpler les détails des patchs des représentations sémantiques permet une compréhension et une génération multimodales unifiées

Résumé

Un sujet récent de pointe en modélisation multimodale consiste à unifier la compréhension visuelle et la génération d'images au sein d'un modèle unique. Cependant, ces deux tâches nécessitent des régimes de décodage et des représentations visuelles incompatibles, rendant non triviale l'optimisation conjointe dans un espace de caractéristiques partagé. Dans ce travail, nous présentons Cheers, un modèle multimodal unifié qui dissocie les détails au niveau des patchs des représentations sémantiques, stabilisant ainsi les sémantiques pour la compréhension multimodale et améliorant la fidélité pour la génération d'images via des résidus de détails conditionnés. Cheers comprend trois composants clés : (i) un tokeniseur visuel unifié qui encode et compresse les états latents de l'image en tokens sémantiques pour un conditionnement efficace des LLMs, (ii) un Transformer basé sur un LLM qui unifie le décodage autorégressif pour la génération de texte et le décodage par diffusion pour la génération d'images, et (iii) une tête en cascade par appariement de flux qui décode d'abord les sémantiques visuelles puis injecte des résidus de détails sémantiquement conditionnés provenant du tokeniseur visuel pour affiner le contenu haute fréquence. Les expériences sur des benchmarks populaires démontrent que Cheers égale ou dépasse les UMMs avancés à la fois en compréhension visuelle et en génération. Cheers réalise également une compression des tokens par 4, permettant un encodage et une génération d'images haute résolution plus efficaces. Notamment, Cheers surpasse le Tar-1.5B sur les benchmarks populaires GenEval et MMBench, tout en nécessitant seulement 20% du coût d'entraînement, indiquant une modélisation multimodale unifiée efficace et efficiente (c'est-à-dire une compression des tokens par 4). Nous publierons l'intégralité du code et des données pour les recherches futures.

English

A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.

Cheers : Découpler les détails des patchs des représentations sémantiques permet une compréhension et une génération multimodales unifiées

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Résumé

Support