Geïntegreerde Multimodale Begrips- en Generatiemodellen: Vooruitgang, Uitdagingen en Mogelijkheden
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
May 5, 2025
Auteurs: Xinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Samenvatting
De afgelopen jaren is er aanzienlijke vooruitgang geboekt in zowel multimodale begripsmodellen als beeldgeneratiemodellen. Ondanks hun respectievelijke successen hebben deze twee domeinen zich onafhankelijk ontwikkeld, wat heeft geleid tot verschillende architecturale paradigma's: terwijl autoregressieve architecturen de boventoon voeren in multimodaal begrip, zijn diffusiegebaseerde modellen de hoeksteen geworden van beeldgeneratie. Recentelijk is er een groeiende interesse ontstaan in het ontwikkelen van geïntegreerde frameworks die deze taken combineren. De opkomst van de nieuwe mogelijkheden van GPT-4o illustreert deze trend en benadrukt het potentieel voor unificatie. De architectonische verschillen tussen de twee domeinen vormen echter aanzienlijke uitdagingen. Om een duidelijk overzicht te bieden van de huidige inspanningen richting unificatie, presenteren we een uitgebreid overzicht dat toekomstig onderzoek moet begeleiden. Eerst introduceren we de fundamentele concepten en recente ontwikkelingen in multimodaal begrip en tekst-naar-beeldgeneratiemodellen. Vervolgens bespreken we bestaande geïntegreerde modellen, die we categoriseren in drie hoofdarchitecturale paradigma's: diffusiegebaseerd, autoregressief gebaseerd en hybride benaderingen die autoregressieve en diffusiemechanismen combineren. Voor elke categorie analyseren we de structurele ontwerpen en innovaties die door gerelateerde werken zijn geïntroduceerd. Daarnaast stellen we datasets en benchmarks samen die specifiek zijn afgestemd op geïntegreerde modellen, wat bronnen biedt voor toekomstige verkenning. Tot slot bespreken we de belangrijkste uitdagingen waarmee dit jonge vakgebied te maken heeft, waaronder tokenisatiestrategie, cross-modale aandacht en data. Aangezien dit gebied zich nog in de beginfase bevindt, verwachten we snelle vooruitgang en zullen we dit overzicht regelmatig bijwerken. Ons doel is om verder onderzoek te inspireren en een waardevolle referentie te bieden voor de gemeenschap. De referenties die bij dit overzicht horen, zijn beschikbaar op GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).
English
Recent years have seen remarkable progress in both multimodal understanding
models and image generation models. Despite their respective successes, these
two domains have evolved independently, leading to distinct architectural
paradigms: While autoregressive-based architectures have dominated multimodal
understanding, diffusion-based models have become the cornerstone of image
generation. Recently, there has been growing interest in developing unified
frameworks that integrate these tasks. The emergence of GPT-4o's new
capabilities exemplifies this trend, highlighting the potential for
unification. However, the architectural differences between the two domains
pose significant challenges. To provide a clear overview of current efforts
toward unification, we present a comprehensive survey aimed at guiding future
research. First, we introduce the foundational concepts and recent advancements
in multimodal understanding and text-to-image generation models. Next, we
review existing unified models, categorizing them into three main architectural
paradigms: diffusion-based, autoregressive-based, and hybrid approaches that
fuse autoregressive and diffusion mechanisms. For each category, we analyze the
structural designs and innovations introduced by related works. Additionally,
we compile datasets and benchmarks tailored for unified models, offering
resources for future exploration. Finally, we discuss the key challenges facing
this nascent field, including tokenization strategy, cross-modal attention, and
data. As this area is still in its early stages, we anticipate rapid
advancements and will regularly update this survey. Our goal is to inspire
further research and provide a valuable reference for the community. The
references associated with this survey are available on GitHub
(https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).