Architektur-Entkopplung ist nicht alles, was für ein vereinheitlichtes multimodales Modell erforderlich ist
Architecture Decoupling Is Not All You Need For Unified Multimodal Model
November 27, 2025
papers.authors: Dian Zheng, Manyuan Zhang, Hongyu Li, Kai Zou, Hongbo Liu, Ziyu Guo, Kaituo Feng, Yexin Liu, Ying Luo, Yan Feng, Peng Pei, Xunliang Cai, Hongsheng Li
cs.AI
papers.abstract
Einheitliche multimodale Modelle für Bildgenerierung und -verständnis stellen einen bedeutenden Schritt in Richtung AGI dar und haben breite Aufmerksamkeit von Forschern auf sich gezogen. Die Hauptherausforderung dieser Aufgabe liegt in der Schwierigkeit, ein optimales Trainingsparadigma zu etablieren, bedingt durch inhärent konfligierende Ziele bei Verstehens- und Generierungsaufgaben. Um diese Konflikte zu mildern und höhere Leistung zu erzielen, setzen viele Forscher auf unterschiedlich starke Entkopplung des Modells (z.B. doppelte Bildencoder, MOE/MOT-Architektur oder eingefrorene MLLMs). Eine übermäßige Modellentkopplung kann jedoch zum Verlust der Fähigkeit zur verschachtelten Generierung führen und damit die ursprüngliche Absicht einheitlicher Modelle untergraben. In dieser Arbeit untersuchen wir, wie sich Aufgabenkonflikte mildern lassen, ohne auf Modellentkopplung zurückzugreifen. Zunächst analysieren wir, warum Entkopplung Konflikte lindert, indem wir das Cross-Modal-Attention-Verhalten von Modellen studieren. Wir beobachten, dass Modellentkopplung im Wesentlichen Modelle zu aufgabenspezifischen multimodalen Interaktionsmustern treibt, wie bei Qwen-VL und HunyuanImage zu sehen, und dass das Verhalten umso konsistenter wird, je gründlicher die Entkopplung ist. Angeregt durch diese Beobachtung schlagen wir den Attention Interaction Alignment (AIA)-Loss vor, der während des Trainings explizit aufgabenspezifische multimodale Interaktionsmuster erlernt. Um die Generalisierbarkeit unseres AIA-Loss zu demonstrieren, wenden wir ihn auf Emu3 bzw. Janus-Pro während der SFT- bzw. Nachtrainingsphase an. Ohne zusätzliche Raffinessen verfeinert AIA nicht nur die cross-modalen Aufmerksamkeitsmuster, sondern steigert sowohl die Generierungs- als auch die Verstehensleistung.
English
Unified multimodal models for image generation and understanding represent a significant step toward AGI and have attracted widespread attention from researchers. The main challenge of this task lies in the difficulty in establishing an optimal training paradigm due to inherent conflicting targets in understanding and generation tasks. To alleviate these conflicts and pursue higher performance, many researchers adopt varying degrees of model decoupling (e.g., Double image encoders, MOE/MOT architecture, or frozen MLLM). However, excessive model decoupling can lead to the loss of interleave generation ability, undermining the original intent of unified models. In this work, we aim to explore how to mitigate task conflicts without resorting to model decoupling. Firstly, we analyze why decoupling alleviates conflicts by studying the cross-modal attention behavior of models. We observe that model decoupling essentially drives models toward task-specific multimodal interaction patterns, as seen in Qwen-VL and HunyuanImage, and that the more thorough the decoupling, the more consistent the behavior becomes. Motivated by this observation, we propose Attention Interaction Alignment (AIA) loss, which explicitly learns Task-Specific multimodal interaction patterns during training. To demonstrate the generalizability of our AIA loss, we apply it to Emu3 and Janus-Pro during SFT and post-training stage respectively. Without bells and whistles, AIA not only refines cross-modal attention patterns, but also boosts both generation and understanding performance.