ChatPaper.aiChatPaper

La separazione architetturale non è tutto ciò che serve per un modello multimodale unificato

Architecture Decoupling Is Not All You Need For Unified Multimodal Model

November 27, 2025
Autori: Dian Zheng, Manyuan Zhang, Hongyu Li, Kai Zou, Hongbo Liu, Ziyu Guo, Kaituo Feng, Yexin Liu, Ying Luo, Yan Feng, Peng Pei, Xunliang Cai, Hongsheng Li
cs.AI

Abstract

I modelli multimodali unificati per la generazione e comprensione di immagini rappresentano un passo significativo verso l'AGI e hanno attirato un'ampia attenzione da parte dei ricercatori. La sfida principale di questo compito risiede nella difficoltà di stabilire un paradigma di addestramento ottimale a causa degli obiettivi intrinsecamente conflittuali nei compiti di comprensione e generazione. Per alleviare questi conflitti e perseguire prestazioni più elevate, molti ricercatori adottano vari gradi di disaccoppiamento del modello (ad esempio, doppi encoder di immagini, architetture MOE/MOT o MLLM congelati). Tuttavia, un eccessivo disaccoppiamento del modello può portare alla perdita della capacità di generazione intervallata, minando l'intento originale dei modelli unificati. In questo lavoro, miriamo a esplorare come mitigare i conflitti tra compiti senza ricorrere al disaccoppiamento del modello. In primo luogo, analizziamo il motivo per cui il disaccoppiamento allevia i conflitti studiando il comportamento dell'attenzione cross-modale dei modelli. Osserviamo che il disaccoppiamento del modello spinge essenzialmente i modelli verso pattern di interazione multimodale specifici per il compito, come si vede in Qwen-VL e HunyuanImage, e che più approfondito è il disaccoppiamento, più coerente diventa il comportamento. Motivati da questa osservazione, proponiamo una loss di Allineamento dell'Interazione di Attenzione (AIA), che impara esplicitamente pattern di interazione multimodale specifici per il compito durante l'addestramento. Per dimostrare la generalizzabilità della nostra loss AIA, la applichiamo a Emu3 e Janus-Pro rispettivamente durante la fase di SFT e post-addestramento. Senza inutili complicazioni, l'AIA non solo perfeziona i pattern di attenzione cross-modale, ma migliora anche le prestazioni sia di generazione che di comprensione.
English
Unified multimodal models for image generation and understanding represent a significant step toward AGI and have attracted widespread attention from researchers. The main challenge of this task lies in the difficulty in establishing an optimal training paradigm due to inherent conflicting targets in understanding and generation tasks. To alleviate these conflicts and pursue higher performance, many researchers adopt varying degrees of model decoupling (e.g., Double image encoders, MOE/MOT architecture, or frozen MLLM). However, excessive model decoupling can lead to the loss of interleave generation ability, undermining the original intent of unified models. In this work, we aim to explore how to mitigate task conflicts without resorting to model decoupling. Firstly, we analyze why decoupling alleviates conflicts by studying the cross-modal attention behavior of models. We observe that model decoupling essentially drives models toward task-specific multimodal interaction patterns, as seen in Qwen-VL and HunyuanImage, and that the more thorough the decoupling, the more consistent the behavior becomes. Motivated by this observation, we propose Attention Interaction Alignment (AIA) loss, which explicitly learns Task-Specific multimodal interaction patterns during training. To demonstrate the generalizability of our AIA loss, we apply it to Emu3 and Janus-Pro during SFT and post-training stage respectively. Without bells and whistles, AIA not only refines cross-modal attention patterns, but also boosts both generation and understanding performance.
PDF231December 2, 2025