Cheers: Разделение деталей патчей и семантических представлений обеспечивает единое мультимодальное понимание и генерацию

Аннотация

Современным направлением в мультимодальном моделировании является объединение визуального понимания и генерации в рамках единой модели. Однако эти задачи требуют несовместимых режимов декодирования и визуальных представлений, что затрудняет их совместную оптимизацию в общем пространстве признаков. В данной работе мы представляем Cheers — унифицированную мультимодальную модель, которая разделяет патч-уровневые детали от семантических представлений, стабилизируя семантику для мультимодального понимания и повышая точность генерации изображений через управляемые остаточные детали. Модель включает три ключевых компонента: (i) унифицированный визуальный токенизатор, кодирующий и сжимающий латентные состояния изображения в семантические токены для эффективного кондиционирования языковой модели; (ii) трансформер на основе LLM, объединяющий авторегрессионное декодирование для генерации текста и диффузионное декодирование для генерации изображений; (iii) каскадная голова с согласованием потоков, которая сначала декодирует визуальную семантику, а затем внедряет семантически управляемые остаточные детали из токенизатора для уточнения высокочастотного контента. Эксперименты на популярных бенчмарках показывают, что Cheers соответствует или превосходит передовые UMM как в визуальном понимании, так и в генерации. Модель также достигает 4-кратного сжатия токенов, обеспечивая более эффективное кодирование и генерацию изображений высокого разрешения. Примечательно, что Cheers превосходит Tar-1.5B на бенчмарках GenEval и MMBench, требуя лишь 20% затрат на обучение, что демонстрирует эффективное и экономичное (благодаря 4-кратному сжатию токенов) унифицированное мультимодальное моделирование. Мы опубликуем весь код и данные для будущих исследований.

English

A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.

Cheers: Разделение деталей патчей и семантических представлений обеспечивает единое мультимодальное понимание и генерацию

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Аннотация

Support