A dissociação da arquitetura não é tudo o que você precisa para um modelo multimodal unificado

Resumo

Os modelos multimodais unificados para geração e compreensão de imagens representam um passo significativo em direção à AGI e têm atraído ampla atenção dos pesquisadores. O principal desafio desta tarefa reside na dificuldade de estabelecer um paradigma de treinamento ideal devido aos objetivos inerentemente conflitantes nas tarefas de compreensão e geração. Para aliviar esses conflitos e buscar maior desempenho, muitos pesquisadores adotam diferentes graus de desacoplamento de modelo (por exemplo, codificadores duplos de imagem, arquitetura MOE/MOT ou MLLM congelado). No entanto, o desacoplamento excessivo do modelo pode levar à perda da capacidade de geração intercalada, prejudicando a intenção original dos modelos unificados. Neste trabalho, visamos explorar como mitigar os conflitos de tarefas sem recorrer ao desacoplamento de modelo. Primeiramente, analisamos por que o desacoplamento alivia os conflitos estudando o comportamento de atenção cross-modal dos modelos. Observamos que o desacoplamento de modelo essencialmente conduz os modelos a padrões de interação multimodal específicos por tarefa, como observado em Qwen-VL e HunyuanImage, e que quanto mais completo o desacoplamento, mais consistente o comportamento se torna. Motivados por esta observação, propomos a perda de Alinhamento de Interação de Atenção (AIA), que aprende explicitamente padrões de interação multimodal específicos por tarefa durante o treinamento. Para demonstrar a generalizabilidade de nossa perda AIA, aplicamo-la a Emu3 e Janus-Pro durante as etapas de SFT e pós-treinamento, respectivamente. Sem recursos complexos adicionais, a AIA não apenas refina os padrões de atenção cross-modal, mas também impulsiona o desempenho tanto na geração quanto na compreensão.

English

Unified multimodal models for image generation and understanding represent a significant step toward AGI and have attracted widespread attention from researchers. The main challenge of this task lies in the difficulty in establishing an optimal training paradigm due to inherent conflicting targets in understanding and generation tasks. To alleviate these conflicts and pursue higher performance, many researchers adopt varying degrees of model decoupling (e.g., Double image encoders, MOE/MOT architecture, or frozen MLLM). However, excessive model decoupling can lead to the loss of interleave generation ability, undermining the original intent of unified models. In this work, we aim to explore how to mitigate task conflicts without resorting to model decoupling. Firstly, we analyze why decoupling alleviates conflicts by studying the cross-modal attention behavior of models. We observe that model decoupling essentially drives models toward task-specific multimodal interaction patterns, as seen in Qwen-VL and HunyuanImage, and that the more thorough the decoupling, the more consistent the behavior becomes. Motivated by this observation, we propose Attention Interaction Alignment (AIA) loss, which explicitly learns Task-Specific multimodal interaction patterns during training. To demonstrate the generalizability of our AIA loss, we apply it to Emu3 and Janus-Pro during SFT and post-training stage respectively. Without bells and whistles, AIA not only refines cross-modal attention patterns, but also boosts both generation and understanding performance.

A dissociação da arquitetura não é tudo o que você precisa para um modelo multimodal unificado

Architecture Decoupling Is Not All You Need For Unified Multimodal Model

Resumo

Support