Modèles unifiés de compréhension et de génération multimodales : avancées, défis et opportunitésUnified Multimodal Understanding and Generation Models: Advances,
Challenges, and Opportunities
Ces dernières années ont été marquées par des progrès remarquables dans les modèles de compréhension multimodale et les modèles de génération d'images. Malgré leurs succès respectifs, ces deux domaines ont évolué de manière indépendante, conduisant à des paradigmes architecturaux distincts : alors que les architectures basées sur des modèles autorégressifs ont dominé la compréhension multimodale, les modèles basés sur la diffusion sont devenus la pierre angulaire de la génération d'images. Récemment, un intérêt croissant s'est manifesté pour le développement de cadres unifiés intégrant ces tâches. L'émergence des nouvelles capacités de GPT-4o illustre cette tendance, mettant en lumière le potentiel d'unification. Cependant, les différences architecturales entre ces deux domaines posent des défis significatifs. Pour offrir un aperçu clair des efforts actuels vers l'unification, nous présentons une étude approfondie visant à orienter les recherches futures. Tout d'abord, nous introduisons les concepts fondamentaux et les avancées récentes dans les modèles de compréhension multimodale et de génération d'images à partir de texte. Ensuite, nous passons en revue les modèles unifiés existants, en les classant en trois principaux paradigmes architecturaux : les approches basées sur la diffusion, les approches autorégressives, et les approches hybrides qui fusionnent les mécanismes autorégressifs et de diffusion. Pour chaque catégorie, nous analysons les conceptions structurelles et les innovations introduites par les travaux connexes. De plus, nous compilons des ensembles de données et des benchmarks spécifiquement adaptés aux modèles unifiés, offrant ainsi des ressources pour des explorations futures. Enfin, nous discutons des principaux défis auxquels ce domaine naissant est confronté, notamment la stratégie de tokenisation, l'attention intermodale et les données. Étant donné que ce domaine en est encore à ses débuts, nous anticipons des avancées rapides et mettrons régulièrement à jour cette étude. Notre objectif est d'inspirer des recherches supplémentaires et de fournir une référence précieuse pour la communauté. Les références associées à cette étude sont disponibles sur GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).