Proost: Ontkoppeling van Patchdetails van Semantische Representaties Maakt Verenigde Multimodale Begrip en Generatie Mogelijk

Samenvatting

Een recent baanbrekend onderwerp in multimodale modellering is het verenigen van visueel begrip en generatie binnen één enkel model. De twee taken vereisen echter niet-overeenkomende decodeerregimes en visuele representaties, wat het gezamenlijk optimaliseren binnen een gedeelde kenmerkruimte niet triviaal maakt. In dit werk presenteren we Cheers, een verenigd multimodaal model dat patch-level details ontkoppelt van semantische representaties, waardoor semantiek wordt gestabiliseerd voor multimodaal begrip en de trouw voor beeldgeneratie wordt verbeterd via gegateerde detailresiduen. Cheers omvat drie belangrijke componenten: (i) een uniforme vision-tokenizer die latente beeldtoestanden encodeert en comprimeert tot semantische tokens voor efficiënte conditionering van het LLM, (ii) een op LLM gebaseerde Transformer die autoregressief decoderen voor tekstgeneratie en diffusiedecodering voor beeldgeneratie verenigt, en (iii) een cascade flow matching-head die eerst visuele semantiek decodeert en vervolgens semantisch gegateerde detailresiduen uit de vision-tokenizer injecteert om hoogfrequente inhoud te verfijnen. Experimenten op populaire benchmarks tonen aan dat Cheers evenaart of overtreft geavanceerde UMM's in zowel visueel begrip als generatie. Cheers bereikt tevens een 4x tokencompressie, wat efficiëntere codering en generatie van hoogresolutiebeelden mogelijk maakt. Opmerkelijk is dat Cheers de Tar-1.5B overtreft op de populaire benchmarks GenEval en MMBench, terwijl slechts 20% van de trainingskosten nodig is, wat wijst op effectieve en efficiënte (d.w.z. 4x tokencompressie) verenigde multimodale modellering. Wij zullen alle code en data vrijgeven voor toekomstig onderzoek.

English

A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.

Proost: Ontkoppeling van Patchdetails van Semantische Representaties Maakt Verenigde Multimodale Begrip en Generatie Mogelijk

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Samenvatting

Support