UniFork: Onderzoek naar Modale Afstemming voor Geünificeerde Multimodale Begrip en Generatie
UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation
June 20, 2025
Auteurs: Teng Li, Quanfeng Lu, Lirui Zhao, Hao Li, Xizhou Zhu, Yu Qiao, Jun Zhang, Wenqi Shao
cs.AI
Samenvatting
Unified beeldbegrip en -generatie is naar voren gekomen als een veelbelovend paradigma in multimodale kunstmatige intelligentie. Ondanks recente vooruitgang blijft het optimale architectonische ontwerp voor dergelijke unified modellen een open uitdaging. In dit werk beginnen we met het analyseren van de modaliteitsuitlijning van taakspecifieke expertmodellen voor begrip en generatie, evenals van huidige unified modellen. Onze analyse onthult een cruciaal inzicht: begriptaken profiteren van een progressief toenemende modaliteitsuitlijning over de diepte van het netwerk, wat helpt bij het opbouwen van semantische informatie voor beter begrip; daarentegen volgen generatietaken een ander patroon: modaliteitsuitlijning neemt toe in de vroege lagen maar neemt af in de diepere lagen om ruimtelijke details te herstellen. Deze uiteenlopende uitlijningpatronen creëren een fundamenteel conflict in volledig gedeelde Transformer-backbones, waar een uniforme representatiestroom vaak leidt tot prestatiecompromissen over beide taken. Gemotiveerd door deze bevinding introduceren we UniFork, een nieuwe Y-vormige architectuur die de ondiepe lagen deelt voor kruistaakrepresentatieleer, terwijl taakspecifieke takken in diepere lagen worden gebruikt om taakinterferentie te voorkomen. Dit ontwerp balanceert effectief gedeeld leren en taakspecialisatie. Door uitgebreide ablatie-experimenten tonen we aan dat UniFork consequent beter presteert dan conventionele volledig gedeelde Transformer-architecturen, en prestaties bereikt die vergelijkbaar zijn met of beter dan taakspecifieke modellen.
English
Unified image understanding and generation has emerged as a promising
paradigm in multimodal artificial intelligence. Despite recent progress, the
optimal architectural design for such unified models remains an open challenge.
In this work, we start by analyzing the modality alignment behaviors of
task-specific expert models for understanding and generation, as well as
current unified models. Our analysis reveals a crucial observation:
understanding tasks benefit from a progressively increasing modality alignment
across network depth, which helps build up semantic information for better
comprehension; In contrast, generation tasks follow a different trend: modality
alignment increases in the early layers but decreases in the deep layers to
recover spatial details. These divergent alignment patterns create a
fundamental conflict in fully shared Transformer backbones, where a uniform
representational flow often leads to performance compromises across two tasks.
Motivated by this finding, we introduce UniFork, a novel Y-shaped architecture
that shares the shallow layers for cross-task representation learning, while
employing task-specific branches in deeper layers to avoid task interference.
This design effectively balances shared learning and task specialization.
Through extensive ablation experiments, we demonstrate that Unifork
consistently outperforms conventional fully shared Transformer architectures,
and achieves performance on par with or better than task-specific models.