ChatPaper.aiChatPaper

Le découplage de l'architecture n'est pas la seule condition nécessaire pour un modèle multimodal unifié

Architecture Decoupling Is Not All You Need For Unified Multimodal Model

November 27, 2025
papers.authors: Dian Zheng, Manyuan Zhang, Hongyu Li, Kai Zou, Hongbo Liu, Ziyu Guo, Kaituo Feng, Yexin Liu, Ying Luo, Yan Feng, Peng Pei, Xunliang Cai, Hongsheng Li
cs.AI

papers.abstract

Les modèles multimodaux unifiés pour la génération et la compréhension d'images représentent une avancée significative vers l'IA générale et ont suscité une large attention de la part des chercheurs. Le principal défi de cette tâche réside dans la difficulté à établir un paradigme d'entraînement optimal en raison des objectifs conflictuels inhérents aux tâches de compréhension et de génération. Pour atténuer ces conflits et viser de meilleures performances, de nombreux chercheurs adoptent différents degrés de découplage du modèle (par exemple, doubles encodeurs d'images, architectures MOE/MOT, ou MLLM figé). Cependant, un découplage excessif du modèle peut entraîner la perte de la capacité de génération entrelacée, compromettant l'intention originelle des modèles unifiés. Dans ce travail, nous visons à explorer comment atténuer les conflits de tâches sans recourir au découplage du modèle. Premièrement, nous analysons pourquoi le découplage atténue les conflits en étudiant le comportement attentionnel cross-modal des modèles. Nous observons que le découplage du modèle pousse essentiellement les modèles vers des schémas d'interaction multimodale spécifiques aux tâches, comme observé dans Qwen-VL et HunyuanImage, et que plus le découplage est approfondi, plus le comportement devient cohérent. Motivés par cette observation, nous proposons une fonction de perte d'Alignement de l'Interaction Attentionnelle (AIA), qui apprend explicitement des schémas d'interaction multimodale spécifiques aux tâches durant l'entraînement. Pour démontrer la généralisabilité de notre perte AIA, nous l'appliquons à Emu3 et Janus-Pro respectivement durant les phases de SFT et de post-entraînement. Sans artifices superflus, AIA affine non seulement les schémas attentionnels cross-modaux, mais améliore également les performances en génération et en compréhension.
English
Unified multimodal models for image generation and understanding represent a significant step toward AGI and have attracted widespread attention from researchers. The main challenge of this task lies in the difficulty in establishing an optimal training paradigm due to inherent conflicting targets in understanding and generation tasks. To alleviate these conflicts and pursue higher performance, many researchers adopt varying degrees of model decoupling (e.g., Double image encoders, MOE/MOT architecture, or frozen MLLM). However, excessive model decoupling can lead to the loss of interleave generation ability, undermining the original intent of unified models. In this work, we aim to explore how to mitigate task conflicts without resorting to model decoupling. Firstly, we analyze why decoupling alleviates conflicts by studying the cross-modal attention behavior of models. We observe that model decoupling essentially drives models toward task-specific multimodal interaction patterns, as seen in Qwen-VL and HunyuanImage, and that the more thorough the decoupling, the more consistent the behavior becomes. Motivated by this observation, we propose Attention Interaction Alignment (AIA) loss, which explicitly learns Task-Specific multimodal interaction patterns during training. To demonstrate the generalizability of our AIA loss, we apply it to Emu3 and Janus-Pro during SFT and post-training stage respectively. Without bells and whistles, AIA not only refines cross-modal attention patterns, but also boosts both generation and understanding performance.
PDF231December 2, 2025