ChatPaper.aiChatPaper

アーキテクチャの分離は統一マルチモーダルモデルに十分ではない

Architecture Decoupling Is Not All You Need For Unified Multimodal Model

November 27, 2025
著者: Dian Zheng, Manyuan Zhang, Hongyu Li, Kai Zou, Hongbo Liu, Ziyu Guo, Kaituo Feng, Yexin Liu, Ying Luo, Yan Feng, Peng Pei, Xunliang Cai, Hongsheng Li
cs.AI

要旨

画像生成と理解のための統合マルチモーダルモデルは、AGIに向けた重要な一歩を表し、研究者の幅広い注目を集めている。この課題の主な難しさは、理解タスクと生成タスクに内在する目標の衝突により、最適な訓練パラダイムを確立することが困難な点にある。これらの衝突を緩和し、より高い性能を追求するため、多くの研究者が様々な程度のモデル分離(例:二重画像エンコーダ、MOE/MOTアーキテクチャ、または凍結されたMLLM)を採用している。しかし、過度なモデル分離は、インタリーブ生成能力の喪失を招き、統合モデルの本来の意図を損なう可能性がある。本研究では、モデル分離に頼らずにタスク衝突を緩和する方法を探ることを目的とする。まず、モデルのクロスモーダル注意行動を研究することで、分離がなぜ衝突を緩和するのかを分析する。モデル分離が本質的に、Qwen-VLやHunyuanImageに見られるように、モデルをタスク特化的なマルチモーダル相互作用パターンに向かわせること、そして分離が徹底されるほど行動の一貫性が高まることを観察した。この観察に動機付けられ、我々は訓練中にタスク特化的なマルチモーダル相互作用パターンを明示的に学習するAttention Interaction Alignment(AIA)損失を提案する。我々のAIA損失の一般性を示すため、Emu3とJanus-ProにそれぞれSFT段階と事後訓練段階で適用した。余計な工夫を一切加えずとも、AIAはクロスモーダル注意パターンを洗練させるだけでなく、生成と理解の両方の性能を向上させた。
English
Unified multimodal models for image generation and understanding represent a significant step toward AGI and have attracted widespread attention from researchers. The main challenge of this task lies in the difficulty in establishing an optimal training paradigm due to inherent conflicting targets in understanding and generation tasks. To alleviate these conflicts and pursue higher performance, many researchers adopt varying degrees of model decoupling (e.g., Double image encoders, MOE/MOT architecture, or frozen MLLM). However, excessive model decoupling can lead to the loss of interleave generation ability, undermining the original intent of unified models. In this work, we aim to explore how to mitigate task conflicts without resorting to model decoupling. Firstly, we analyze why decoupling alleviates conflicts by studying the cross-modal attention behavior of models. We observe that model decoupling essentially drives models toward task-specific multimodal interaction patterns, as seen in Qwen-VL and HunyuanImage, and that the more thorough the decoupling, the more consistent the behavior becomes. Motivated by this observation, we propose Attention Interaction Alignment (AIA) loss, which explicitly learns Task-Specific multimodal interaction patterns during training. To demonstrate the generalizability of our AIA loss, we apply it to Emu3 and Janus-Pro during SFT and post-training stage respectively. Without bells and whistles, AIA not only refines cross-modal attention patterns, but also boosts both generation and understanding performance.
PDF231December 2, 2025