La Desvinculación Arquitectónica No Es Todo Lo Que Necesitas Para Un Modelo Multimodal Unificado
Architecture Decoupling Is Not All You Need For Unified Multimodal Model
November 27, 2025
Autores: Dian Zheng, Manyuan Zhang, Hongyu Li, Kai Zou, Hongbo Liu, Ziyu Guo, Kaituo Feng, Yexin Liu, Ying Luo, Yan Feng, Peng Pei, Xunliang Cai, Hongsheng Li
cs.AI
Resumen
Los modelos multimodales unificados para generación y comprensión de imágenes representan un avance significativo hacia la AGI y han atraído una atención generalizada por parte de los investigadores. El principal desafío de esta tarea radica en la dificultad para establecer un paradigma de entrenamiento óptimo debido a los objetivos inherentemente conflictivos entre las tareas de comprensión y generación. Para mitigar estos conflictos y alcanzar un mayor rendimiento, muchos investigadores adoptan distintos grados de desacoplamiento del modelo (por ejemplo, codificadores de imagen dobles, arquitecturas MOE/MOT o MLLM congelados). Sin embargo, un desacoplamiento excesivo puede provocar la pérdida de la capacidad de generación entrelazada, socavando el propósito original de los modelos unificados. En este trabajo, nuestro objetivo es explorar cómo mitigar los conflictos entre tareas sin recurrir al desacoplamiento del modelo. En primer lugar, analizamos por qué el desacoplamiento mitiga los conflictos mediante el estudio del comportamiento de atención multimodal cruzada de los modelos. Observamos que el desacoplamiento del modelo impulsa esencialmente a los modelos hacia patrones de interacción multimodal específicos de la tarea, como se observa en Qwen-VL y HunyuanImage, y que cuanto más exhaustivo es el desacoplamiento, más consistente se vuelve el comportamiento. Motivados por esta observación, proponemos la pérdida por Alineación de Interacción de Atención (AIA), que aprende explícitamente patrones de interacción multimodal específicos de la tarea durante el entrenamiento. Para demostrar la generalizabilidad de nuestra pérdida AIA, la aplicamos a Emu3 y Janus-Pro durante las etapas de SFT y post-entrenamiento, respectivamente. Sin elementos superfluos, AIA no solo refina los patrones de atención multimodal cruzada, sino que también mejora el rendimiento tanto en generación como en comprensión.
English
Unified multimodal models for image generation and understanding represent a significant step toward AGI and have attracted widespread attention from researchers. The main challenge of this task lies in the difficulty in establishing an optimal training paradigm due to inherent conflicting targets in understanding and generation tasks. To alleviate these conflicts and pursue higher performance, many researchers adopt varying degrees of model decoupling (e.g., Double image encoders, MOE/MOT architecture, or frozen MLLM). However, excessive model decoupling can lead to the loss of interleave generation ability, undermining the original intent of unified models. In this work, we aim to explore how to mitigate task conflicts without resorting to model decoupling. Firstly, we analyze why decoupling alleviates conflicts by studying the cross-modal attention behavior of models. We observe that model decoupling essentially drives models toward task-specific multimodal interaction patterns, as seen in Qwen-VL and HunyuanImage, and that the more thorough the decoupling, the more consistent the behavior becomes. Motivated by this observation, we propose Attention Interaction Alignment (AIA) loss, which explicitly learns Task-Specific multimodal interaction patterns during training. To demonstrate the generalizability of our AIA loss, we apply it to Emu3 and Janus-Pro during SFT and post-training stage respectively. Without bells and whistles, AIA not only refines cross-modal attention patterns, but also boosts both generation and understanding performance.