¡Salud! Desacoplar los detalles de parches de las representaciones semánticas permite una comprensión y generación multimodal unificada

Resumen

Un tema reciente de vanguardia en el modelado multimodal es la unificación de la comprensión y generación visual dentro de un único modelo. Sin embargo, ambas tareas requieren regímenes de decodificación y representaciones visuales incompatibles, lo que dificulta la optimización conjunta en un espacio de características compartido. En este trabajo, presentamos Cheers, un modelo multimodal unificado que desacopla los detalles a nivel de parche de las representaciones semánticas, estabilizando así las semánticas para la comprensión multimodal y mejorando la fidelidad en la generación de imágenes mediante residuos de detalles con compuerta. Cheers incluye tres componentes clave: (i) un tokenizador visual unificado que codifica y comprime los estados latentes de la imagen en tokens semánticos para un condicionamiento eficiente del LLM, (ii) un Transformer basado en LLM que unifica la decodificación autoregresiva para la generación de texto y la decodificación por difusión para la generación de imágenes, y (iii) una cabeza en cascada de emparejamiento de flujos que primero decodifica las semánticas visuales y luego inyecta residuos de detalles con compuerta semántica procedentes del tokenizador visual para refinar el contenido de alta frecuencia. Los experimentos en benchmarks populares demuestran que Cheers iguala o supera a los UMMs avanzados tanto en comprensión como en generación visual. Cheers también logra una compresión de tokens 4 veces mayor, permitiendo una codificación y generación de imágenes de alta resolución más eficiente. Cabe destacar que Cheers supera al Tar-1.5B en los benchmarks populares GenEval y MMBench, requiriendo solo el 20% del coste de entrenamiento, lo que indica un modelado multimodal unificado efectivo y eficiente (es decir, con compresión de tokens 4x). Liberaremos todo el código y datos para futuras investigaciones.

English

A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.

¡Salud! Desacoplar los detalles de parches de las representaciones semánticas permite una comprensión y generación multimodal unificada

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Resumen

Support