Разделение архитектуры — не единственное условие для создания унифицированной мультимодальной модели.
Architecture Decoupling Is Not All You Need For Unified Multimodal Model
November 27, 2025
Авторы: Dian Zheng, Manyuan Zhang, Hongyu Li, Kai Zou, Hongbo Liu, Ziyu Guo, Kaituo Feng, Yexin Liu, Ying Luo, Yan Feng, Peng Pei, Xunliang Cai, Hongsheng Li
cs.AI
Аннотация
Унифицированные мультимодальные модели для генерации и понимания изображений представляют значительный шаг на пути к ОИИ и привлекли широкое внимание исследователей. Основная сложность данной задачи заключается в трудности установления оптимальной парадигмы обучения из-за присущей противоречивости целей задач понимания и генерации. Для смягчения этих конфликтов и достижения более высокой производительности многие исследователи применяют различные степени развязки модели (например, двойные энкодеры изображений, архитектуры MOE/MOT или замороженные MLLM). Однако чрезмерная развязка модели может привести к утрате способности к чередующейся генерации, что подрывает исходный замысел унифицированных моделей. В данной работе мы стремимся исследовать, как смягчить конфликты задач без прибегания к развязке модели. Во-первых, мы анализируем, почему развязка смягчает конфликты, изучая поведение кросс-модальной внимательности моделей. Мы наблюдаем, что развязка модели по сути направляет модели к специфичным для задач паттернам мультимодального взаимодействия, как видно в Qwen-VL и HunyuanImage, причем чем тщательнее развязка, тем более согласованным становится поведение. Руководствуясь этим наблюдением, мы предлагаем функцию потерь выравнивания взаимодействия внимания (AIA), которая явно обучает специфичным для задач паттернам мультимодального взаимодействия в процессе обучения. Для демонстрации обобщаемости нашей функции потерь AIA мы применяем ее к Emu3 и Janus-Pro на этапах SFT и пост-обучения соответственно. Без каких-либо дополнительных усложнений, AIA не только уточняет паттерны кросс-модального внимания, но и повышает производительность как в генерации, так и в понимании.
English
Unified multimodal models for image generation and understanding represent a significant step toward AGI and have attracted widespread attention from researchers. The main challenge of this task lies in the difficulty in establishing an optimal training paradigm due to inherent conflicting targets in understanding and generation tasks. To alleviate these conflicts and pursue higher performance, many researchers adopt varying degrees of model decoupling (e.g., Double image encoders, MOE/MOT architecture, or frozen MLLM). However, excessive model decoupling can lead to the loss of interleave generation ability, undermining the original intent of unified models. In this work, we aim to explore how to mitigate task conflicts without resorting to model decoupling. Firstly, we analyze why decoupling alleviates conflicts by studying the cross-modal attention behavior of models. We observe that model decoupling essentially drives models toward task-specific multimodal interaction patterns, as seen in Qwen-VL and HunyuanImage, and that the more thorough the decoupling, the more consistent the behavior becomes. Motivated by this observation, we propose Attention Interaction Alignment (AIA) loss, which explicitly learns Task-Specific multimodal interaction patterns during training. To demonstrate the generalizability of our AIA loss, we apply it to Emu3 and Janus-Pro during SFT and post-training stage respectively. Without bells and whistles, AIA not only refines cross-modal attention patterns, but also boosts both generation and understanding performance.