UniFork: Explorando o Alinhamento de Modalidades para a Compreensão e Geração Multimodal Unificada
UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation
June 20, 2025
Autores: Teng Li, Quanfeng Lu, Lirui Zhao, Hao Li, Xizhou Zhu, Yu Qiao, Jun Zhang, Wenqi Shao
cs.AI
Resumo
A compreensão e geração unificada de imagens emergiu como um paradigma promissor na inteligência artificial multimodal. Apesar dos recentes avanços, o design arquitetônico ideal para tais modelos unificados permanece um desafio em aberto. Neste trabalho, começamos analisando os comportamentos de alinhamento de modalidades de modelos especializados em tarefas específicas para compreensão e geração, bem como modelos unificados atuais. Nossa análise revela uma observação crucial: tarefas de compreensão se beneficiam de um alinhamento de modalidades progressivamente crescente ao longo da profundidade da rede, o que ajuda a construir informações semânticas para uma melhor compreensão; em contraste, tarefas de geração seguem uma tendência diferente: o alinhamento de modalidades aumenta nas camadas iniciais, mas diminui nas camadas profundas para recuperar detalhes espaciais. Esses padrões divergentes de alinhamento criam um conflito fundamental em backbones de Transformers totalmente compartilhados, onde um fluxo representacional uniforme frequentemente leva a comprometimentos de desempenho entre as duas tarefas. Motivados por essa descoberta, introduzimos o UniFork, uma arquitetura em forma de Y que compartilha as camadas superficiais para aprendizado de representação cruzada, enquanto emprega ramificações específicas para cada tarefa nas camadas mais profundas para evitar interferências entre tarefas. Esse design equilibra efetivamente o aprendizado compartilhado e a especialização por tarefa. Por meio de extensos experimentos de ablação, demonstramos que o UniFork supera consistentemente as arquiteturas convencionais de Transformers totalmente compartilhados e alcança desempenho igual ou superior aos modelos específicos para cada tarefa.
English
Unified image understanding and generation has emerged as a promising
paradigm in multimodal artificial intelligence. Despite recent progress, the
optimal architectural design for such unified models remains an open challenge.
In this work, we start by analyzing the modality alignment behaviors of
task-specific expert models for understanding and generation, as well as
current unified models. Our analysis reveals a crucial observation:
understanding tasks benefit from a progressively increasing modality alignment
across network depth, which helps build up semantic information for better
comprehension; In contrast, generation tasks follow a different trend: modality
alignment increases in the early layers but decreases in the deep layers to
recover spatial details. These divergent alignment patterns create a
fundamental conflict in fully shared Transformer backbones, where a uniform
representational flow often leads to performance compromises across two tasks.
Motivated by this finding, we introduce UniFork, a novel Y-shaped architecture
that shares the shallow layers for cross-task representation learning, while
employing task-specific branches in deeper layers to avoid task interference.
This design effectively balances shared learning and task specialization.
Through extensive ablation experiments, we demonstrate that Unifork
consistently outperforms conventional fully shared Transformer architectures,
and achieves performance on par with or better than task-specific models.