UniFork: 통합된 다중모달 이해 및 생성을 위한 모달리티 정렬 탐구
UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation
June 20, 2025
저자: Teng Li, Quanfeng Lu, Lirui Zhao, Hao Li, Xizhou Zhu, Yu Qiao, Jun Zhang, Wenqi Shao
cs.AI
초록
통합 이미지 이해 및 생성은 다중모달 인공지능 분야에서 유망한 패러다임으로 부상하고 있다. 최근의 진전에도 불구하고, 이러한 통합 모델을 위한 최적의 아키텍처 설계는 여전히 해결해야 할 과제로 남아 있다. 본 연구에서는 먼저 이해 및 생성 작업을 위한 작업별 전문가 모델과 현재의 통합 모델들의 모달리티 정렬 행동을 분석한다. 우리의 분석은 중요한 관찰을 드러낸다: 이해 작업은 네트워크 깊이에 걸쳐 점진적으로 증가하는 모달리티 정렬로부터 이익을 얻으며, 이는 더 나은 이해를 위한 의미 정보를 구축하는 데 도움을 준다; 반면, 생성 작업은 다른 경향을 따른다: 모달리티 정렬은 초기 층에서 증가하지만 깊은 층에서는 공간적 세부 사항을 복원하기 위해 감소한다. 이러한 상이한 정렬 패턴은 완전히 공유된 트랜스포머 백본에서 근본적인 충돌을 일으키며, 균일한 표현 흐름은 종종 두 작업 간의 성능 저하로 이어진다. 이러한 발견에 동기를 부여받아, 우리는 UniFork라는 새로운 Y자형 아키텍처를 제안한다. 이 아키텍처는 얕은 층을 교차 작업 표현 학습을 위해 공유하면서, 더 깊은 층에서는 작업별 분기를 사용하여 작업 간 간섭을 방지한다. 이 설계는 공유 학습과 작업 전문화를 효과적으로 균형 잡는다. 광범위한 절제 실험을 통해, UniFork가 기존의 완전히 공유된 트랜스포머 아키텍처를 지속적으로 능가하며, 작업별 모델과 동등하거나 더 나은 성능을 달성함을 입증한다.
English
Unified image understanding and generation has emerged as a promising
paradigm in multimodal artificial intelligence. Despite recent progress, the
optimal architectural design for such unified models remains an open challenge.
In this work, we start by analyzing the modality alignment behaviors of
task-specific expert models for understanding and generation, as well as
current unified models. Our analysis reveals a crucial observation:
understanding tasks benefit from a progressively increasing modality alignment
across network depth, which helps build up semantic information for better
comprehension; In contrast, generation tasks follow a different trend: modality
alignment increases in the early layers but decreases in the deep layers to
recover spatial details. These divergent alignment patterns create a
fundamental conflict in fully shared Transformer backbones, where a uniform
representational flow often leads to performance compromises across two tasks.
Motivated by this finding, we introduce UniFork, a novel Y-shaped architecture
that shares the shallow layers for cross-task representation learning, while
employing task-specific branches in deeper layers to avoid task interference.
This design effectively balances shared learning and task specialization.
Through extensive ablation experiments, we demonstrate that Unifork
consistently outperforms conventional fully shared Transformer architectures,
and achieves performance on par with or better than task-specific models.