Cheers: Entkopplung von Patch-Details von semantischen Repräsentationen ermöglicht einheitliches multimodales Verständnis und Generierung

Zusammenfassung

Ein aktuelles Spitzenthema im multimodalen Modellieren ist die Vereinheitlichung von visuellem Verständnis und Generierung innerhalb eines einzelnen Modells. Allerdings erfordern diese beiden Aufgaben unterschiedliche Dekodierungsregime und visuelle Repräsentationen, was eine gemeinsame Optimierung in einem gemeinsamen Merkmalsraum nicht trivial macht. In dieser Arbeit stellen wir Cheers vor, ein vereinheitlichtes multimodales Modell, das patch-basierte Details von semantischen Repräsentationen entkoppelt und dadurch Semantik für multimodales Verständnis stabilisiert sowie die Bildqualität für die Bildgenerierung durch gated Detail-Residuen verbessert. Cheers umfasst drei Schlüsselkomponenten: (i) einen vereinheitlichten Vision-Tokenizer, der latente Bildzustände kodiert und in semantische Tokens für effiziente LLM-Konditionierung komprimiert, (ii) einen LLM-basierten Transformer, der autoregressives Dekodieren für Textgenerierung und Diffusionsdekodieren für Bildgenerierung vereinheitlicht, und (iii) einen kaskadierten Flow-Matching-Kopf, der zunächst visuelle Semantik dekodiert und dann semantisch gesteuerte Detail-Residuen aus dem Vision-Tokenizer injiziert, um hochfrequente Inhalte zu verfeinern. Experimente auf verbreiteten Benchmarks zeigen, dass Cheers mit fortschrittlichen UMMs im visuellen Verständnis und in der Generierung gleichzieht oder diese übertrifft. Cheers erreicht zudem eine 4-fache Token-Kompression, was eine effizientere Encodierung und Generierung hochauflösender Bilder ermöglicht. Bemerkenswerterweise übertrifft Cheers das Tar-1.5B auf den verbreiteten Benchmarks GenEval und MMBench, benötigt dabei jedoch nur 20 % der Trainingskosten, was auf effektives und effizientes (d.h. 4-fache Token-Kompression) vereinheitlichtes multimodales Modellieren hindeutet. Wir werden allen Code und Daten für die zukünftige Forschung veröffentlichen.

English

A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.

Cheers: Entkopplung von Patch-Details von semantischen Repräsentationen ermöglicht einheitliches multimodales Verständnis und Generierung

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Zusammenfassung

Support