Modèles unifiés de compréhension et de génération multimodales : avancées, défis et opportunités

Résumé

Ces dernières années ont été marquées par des progrès remarquables dans les modèles de compréhension multimodale et les modèles de génération d'images. Malgré leurs succès respectifs, ces deux domaines ont évolué de manière indépendante, conduisant à des paradigmes architecturaux distincts : alors que les architectures basées sur des modèles autorégressifs ont dominé la compréhension multimodale, les modèles basés sur la diffusion sont devenus la pierre angulaire de la génération d'images. Récemment, un intérêt croissant s'est manifesté pour le développement de cadres unifiés intégrant ces tâches. L'émergence des nouvelles capacités de GPT-4o illustre cette tendance, mettant en lumière le potentiel d'unification. Cependant, les différences architecturales entre ces deux domaines posent des défis significatifs. Pour offrir un aperçu clair des efforts actuels vers l'unification, nous présentons une étude approfondie visant à orienter les recherches futures. Tout d'abord, nous introduisons les concepts fondamentaux et les avancées récentes dans les modèles de compréhension multimodale et de génération d'images à partir de texte. Ensuite, nous passons en revue les modèles unifiés existants, en les classant en trois principaux paradigmes architecturaux : les approches basées sur la diffusion, les approches autorégressives, et les approches hybrides qui fusionnent les mécanismes autorégressifs et de diffusion. Pour chaque catégorie, nous analysons les conceptions structurelles et les innovations introduites par les travaux connexes. De plus, nous compilons des ensembles de données et des benchmarks spécifiquement adaptés aux modèles unifiés, offrant ainsi des ressources pour des explorations futures. Enfin, nous discutons des principaux défis auxquels ce domaine naissant est confronté, notamment la stratégie de tokenisation, l'attention intermodale et les données. Étant donné que ce domaine en est encore à ses débuts, nous anticipons des avancées rapides et mettrons régulièrement à jour cette étude. Notre objectif est d'inspirer des recherches supplémentaires et de fournir une référence précieuse pour la communauté. Les références associées à cette étude sont disponibles sur GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).

English

Recent years have seen remarkable progress in both multimodal understanding models and image generation models. Despite their respective successes, these two domains have evolved independently, leading to distinct architectural paradigms: While autoregressive-based architectures have dominated multimodal understanding, diffusion-based models have become the cornerstone of image generation. Recently, there has been growing interest in developing unified frameworks that integrate these tasks. The emergence of GPT-4o's new capabilities exemplifies this trend, highlighting the potential for unification. However, the architectural differences between the two domains pose significant challenges. To provide a clear overview of current efforts toward unification, we present a comprehensive survey aimed at guiding future research. First, we introduce the foundational concepts and recent advancements in multimodal understanding and text-to-image generation models. Next, we review existing unified models, categorizing them into three main architectural paradigms: diffusion-based, autoregressive-based, and hybrid approaches that fuse autoregressive and diffusion mechanisms. For each category, we analyze the structural designs and innovations introduced by related works. Additionally, we compile datasets and benchmarks tailored for unified models, offering resources for future exploration. Finally, we discuss the key challenges facing this nascent field, including tokenization strategy, cross-modal attention, and data. As this area is still in its early stages, we anticipate rapid advancements and will regularly update this survey. Our goal is to inspire further research and provide a valuable reference for the community. The references associated with this survey are available on GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).

Modèles unifiés de compréhension et de génération multimodales : avancées, défis et opportunités

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

Résumé

Support