UniFork: Esplorazione dell'Allineamento delle Modalità per la Comprensione e Generazione Multimodale Unificata
UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation
June 20, 2025
Autori: Teng Li, Quanfeng Lu, Lirui Zhao, Hao Li, Xizhou Zhu, Yu Qiao, Jun Zhang, Wenqi Shao
cs.AI
Abstract
La comprensione e generazione unificata delle immagini è emersa come un paradigma promettente nell'intelligenza artificiale multimodale. Nonostante i recenti progressi, la progettazione architetturale ottimale per tali modelli unificati rimane una sfida aperta. In questo lavoro, iniziamo analizzando i comportamenti di allineamento delle modalità nei modelli esperti specifici per compiti di comprensione e generazione, nonché nei modelli unificati attuali. La nostra analisi rivela un'osservazione cruciale: i compiti di comprensione beneficiano di un allineamento progressivamente crescente delle modalità attraverso la profondità della rete, che aiuta a costruire informazioni semantiche per una migliore comprensione; al contrario, i compiti di generazione seguono una tendenza diversa: l'allineamento delle modalità aumenta negli strati iniziali ma diminuisce negli strati profondi per recuperare i dettagli spaziali. Questi modelli divergenti di allineamento creano un conflitto fondamentale nei backbone Transformer completamente condivisi, dove un flusso rappresentativo uniforme spesso porta a compromessi nelle prestazioni tra i due compiti. Motivati da questa scoperta, introduciamo UniFork, una nuova architettura a forma di Y che condivide gli strati superficiali per l'apprendimento rappresentativo cross-task, mentre impiega rami specifici per compito negli strati più profondi per evitare interferenze tra i compiti. Questo design bilancia efficacemente l'apprendimento condiviso e la specializzazione per compito. Attraverso ampi esperimenti di ablazione, dimostriamo che UniFork supera costantemente le architetture Transformer completamente condivise convenzionali e raggiunge prestazioni pari o migliori rispetto ai modelli specifici per compito.
English
Unified image understanding and generation has emerged as a promising
paradigm in multimodal artificial intelligence. Despite recent progress, the
optimal architectural design for such unified models remains an open challenge.
In this work, we start by analyzing the modality alignment behaviors of
task-specific expert models for understanding and generation, as well as
current unified models. Our analysis reveals a crucial observation:
understanding tasks benefit from a progressively increasing modality alignment
across network depth, which helps build up semantic information for better
comprehension; In contrast, generation tasks follow a different trend: modality
alignment increases in the early layers but decreases in the deep layers to
recover spatial details. These divergent alignment patterns create a
fundamental conflict in fully shared Transformer backbones, where a uniform
representational flow often leads to performance compromises across two tasks.
Motivated by this finding, we introduce UniFork, a novel Y-shaped architecture
that shares the shallow layers for cross-task representation learning, while
employing task-specific branches in deeper layers to avoid task interference.
This design effectively balances shared learning and task specialization.
Through extensive ablation experiments, we demonstrate that Unifork
consistently outperforms conventional fully shared Transformer architectures,
and achieves performance on par with or better than task-specific models.