Modèles unifiés de compréhension et de génération multimodales : avancées, défis et opportunités
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
May 5, 2025
Auteurs: Xinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Résumé
Ces dernières années ont été marquées par des progrès remarquables dans les modèles de compréhension multimodale et les modèles de génération d'images. Malgré leurs succès respectifs, ces deux domaines ont évolué de manière indépendante, conduisant à des paradigmes architecturaux distincts : alors que les architectures basées sur des modèles autorégressifs ont dominé la compréhension multimodale, les modèles basés sur la diffusion sont devenus la pierre angulaire de la génération d'images. Récemment, un intérêt croissant s'est manifesté pour le développement de cadres unifiés intégrant ces tâches. L'émergence des nouvelles capacités de GPT-4o illustre cette tendance, mettant en lumière le potentiel d'unification. Cependant, les différences architecturales entre ces deux domaines posent des défis significatifs. Pour offrir un aperçu clair des efforts actuels vers l'unification, nous présentons une étude approfondie visant à orienter les recherches futures. Tout d'abord, nous introduisons les concepts fondamentaux et les avancées récentes dans les modèles de compréhension multimodale et de génération d'images à partir de texte. Ensuite, nous passons en revue les modèles unifiés existants, en les classant en trois principaux paradigmes architecturaux : les approches basées sur la diffusion, les approches autorégressives, et les approches hybrides qui fusionnent les mécanismes autorégressifs et de diffusion. Pour chaque catégorie, nous analysons les conceptions structurelles et les innovations introduites par les travaux connexes. De plus, nous compilons des ensembles de données et des benchmarks spécifiquement adaptés aux modèles unifiés, offrant ainsi des ressources pour des explorations futures. Enfin, nous discutons des principaux défis auxquels ce domaine naissant est confronté, notamment la stratégie de tokenisation, l'attention intermodale et les données. Étant donné que ce domaine en est encore à ses débuts, nous anticipons des avancées rapides et mettrons régulièrement à jour cette étude. Notre objectif est d'inspirer des recherches supplémentaires et de fournir une référence précieuse pour la communauté. Les références associées à cette étude sont disponibles sur GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).
English
Recent years have seen remarkable progress in both multimodal understanding
models and image generation models. Despite their respective successes, these
two domains have evolved independently, leading to distinct architectural
paradigms: While autoregressive-based architectures have dominated multimodal
understanding, diffusion-based models have become the cornerstone of image
generation. Recently, there has been growing interest in developing unified
frameworks that integrate these tasks. The emergence of GPT-4o's new
capabilities exemplifies this trend, highlighting the potential for
unification. However, the architectural differences between the two domains
pose significant challenges. To provide a clear overview of current efforts
toward unification, we present a comprehensive survey aimed at guiding future
research. First, we introduce the foundational concepts and recent advancements
in multimodal understanding and text-to-image generation models. Next, we
review existing unified models, categorizing them into three main architectural
paradigms: diffusion-based, autoregressive-based, and hybrid approaches that
fuse autoregressive and diffusion mechanisms. For each category, we analyze the
structural designs and innovations introduced by related works. Additionally,
we compile datasets and benchmarks tailored for unified models, offering
resources for future exploration. Finally, we discuss the key challenges facing
this nascent field, including tokenization strategy, cross-modal attention, and
data. As this area is still in its early stages, we anticipate rapid
advancements and will regularly update this survey. Our goal is to inspire
further research and provide a valuable reference for the community. The
references associated with this survey are available on GitHub
(https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).Summary
AI-Generated Summary