ChatPaper.aiChatPaper

Architectuurontkoppeling is niet alles wat nodig is voor een verenigd multimodaal model

Architecture Decoupling Is Not All You Need For Unified Multimodal Model

November 27, 2025
Auteurs: Dian Zheng, Manyuan Zhang, Hongyu Li, Kai Zou, Hongbo Liu, Ziyu Guo, Kaituo Feng, Yexin Liu, Ying Luo, Yan Feng, Peng Pei, Xunliang Cai, Hongsheng Li
cs.AI

Samenvatting

Unificatie multimodale modellen voor beeldgeneratie en -begrip vertegenwoordigen een significante stap richting AGI en hebben brede aandacht van onderzoekers getrokken. De grootste uitdaging van deze taak schuilt in de moeilijkheid om een optimaal trainingsparadigma vast te stellen vanwege inherent tegenstrijdige doelstellingen in begrips- en generatietaken. Om deze conflicten te verzachten en hogere prestaties na te streven, hanteren veel onderzoekers verschillende gradaties van modelontkoppeling (bijvoorbeeld dubbele beeldencoders, MOE/MOT-architectuur, of bevroren MLLM's). Overmatige modelontkoppeling kan echter leiden tot verlies van interleave-generatievermogen, wat de oorspronkelijke intentie van unificatie modellen ondermijnt. In dit werk streven we ernaar te onderzoeken hoe taakconflicten kunnen worden gemitigeerd zonder toevlucht te nemen tot modelontkoppeling. Ten eerste analyseren we waarom ontkoppeling conflicten verzacht door het cross-modale aandachtgedrag van modellen te bestuderen. We observeren dat modelontkoppeling in essentie modellen aanstuurt naar taakspecifieke multimodale interactiepatronen, zoals gezien in Qwen-VL en HunyuanImage, en dat hoe grondiger de ontkoppeling, hoe consistenter het gedrag wordt. Gemotiveerd door deze observatie stellen we Attention Interaction Alignment (AIA) verlies voor, dat expliciet taakspecifieke multimodale interactiepatronen aanleert tijdens de training. Om de generaliseerbaarheid van ons AIA-verlies aan te tonen, passen we het toe op Emu3 en Janus-Pro tijdens respectievelijk de SFT- en post-trainingfase. Zonder toeters en bellen verfijnt AIA niet alleen de cross-modale aandachtspatronen, maar verbetert het ook zowel de generatie- als begripsprestaties.
English
Unified multimodal models for image generation and understanding represent a significant step toward AGI and have attracted widespread attention from researchers. The main challenge of this task lies in the difficulty in establishing an optimal training paradigm due to inherent conflicting targets in understanding and generation tasks. To alleviate these conflicts and pursue higher performance, many researchers adopt varying degrees of model decoupling (e.g., Double image encoders, MOE/MOT architecture, or frozen MLLM). However, excessive model decoupling can lead to the loss of interleave generation ability, undermining the original intent of unified models. In this work, we aim to explore how to mitigate task conflicts without resorting to model decoupling. Firstly, we analyze why decoupling alleviates conflicts by studying the cross-modal attention behavior of models. We observe that model decoupling essentially drives models toward task-specific multimodal interaction patterns, as seen in Qwen-VL and HunyuanImage, and that the more thorough the decoupling, the more consistent the behavior becomes. Motivated by this observation, we propose Attention Interaction Alignment (AIA) loss, which explicitly learns Task-Specific multimodal interaction patterns during training. To demonstrate the generalizability of our AIA loss, we apply it to Emu3 and Janus-Pro during SFT and post-training stage respectively. Without bells and whistles, AIA not only refines cross-modal attention patterns, but also boosts both generation and understanding performance.
PDF231December 2, 2025