ChatPaper.aiChatPaper

Cheers: Разделение деталей патчей и семантических представлений обеспечивает единое мультимодальное понимание и генерацию

Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

March 13, 2026
Авторы: Yichen Zhang, Da Peng, Zonghao Guo, Zijian Zhang, Xuesong Yang, Tong Sun, Shichu Sun, Yidan Zhang, Yanghao Li, Haiyan Zhao, Wang Xu, Qi Shi, Yangang Sun, Chi Chen, Shuo Wang, Yukun Yan, Xu Han, Qiang Ma, Wei Ke, Liang Wang, Zhiyuan Liu, Maosong Sun
cs.AI

Аннотация

Современным направлением в мультимодальном моделировании является объединение визуального понимания и генерации в рамках единой модели. Однако эти задачи требуют несовместимых режимов декодирования и визуальных представлений, что затрудняет их совместную оптимизацию в общем пространстве признаков. В данной работе мы представляем Cheers — унифицированную мультимодальную модель, которая разделяет патч-уровневые детали от семантических представлений, стабилизируя семантику для мультимодального понимания и повышая точность генерации изображений через управляемые остаточные детали. Модель включает три ключевых компонента: (i) унифицированный визуальный токенизатор, кодирующий и сжимающий латентные состояния изображения в семантические токены для эффективного кондиционирования языковой модели; (ii) трансформер на основе LLM, объединяющий авторегрессионное декодирование для генерации текста и диффузионное декодирование для генерации изображений; (iii) каскадная голова с согласованием потоков, которая сначала декодирует визуальную семантику, а затем внедряет семантически управляемые остаточные детали из токенизатора для уточнения высокочастотного контента. Эксперименты на популярных бенчмарках показывают, что Cheers соответствует или превосходит передовые UMM как в визуальном понимании, так и в генерации. Модель также достигает 4-кратного сжатия токенов, обеспечивая более эффективное кодирование и генерацию изображений высокого разрешения. Примечательно, что Cheers превосходит Tar-1.5B на бенчмарках GenEval и MMBench, требуя лишь 20% затрат на обучение, что демонстрирует эффективное и экономичное (благодаря 4-кратному сжатию токенов) унифицированное мультимодальное моделирование. Мы опубликуем весь код и данные для будущих исследований.
English
A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.
PDF383March 30, 2026