Geïntegreerde Multimodale Begrips- en Generatiemodellen: Vooruitgang, Uitdagingen en Mogelijkheden

Samenvatting

De afgelopen jaren is er aanzienlijke vooruitgang geboekt in zowel multimodale begripsmodellen als beeldgeneratiemodellen. Ondanks hun respectievelijke successen hebben deze twee domeinen zich onafhankelijk ontwikkeld, wat heeft geleid tot verschillende architecturale paradigma's: terwijl autoregressieve architecturen de boventoon voeren in multimodaal begrip, zijn diffusiegebaseerde modellen de hoeksteen geworden van beeldgeneratie. Recentelijk is er een groeiende interesse ontstaan in het ontwikkelen van geïntegreerde frameworks die deze taken combineren. De opkomst van de nieuwe mogelijkheden van GPT-4o illustreert deze trend en benadrukt het potentieel voor unificatie. De architectonische verschillen tussen de twee domeinen vormen echter aanzienlijke uitdagingen. Om een duidelijk overzicht te bieden van de huidige inspanningen richting unificatie, presenteren we een uitgebreid overzicht dat toekomstig onderzoek moet begeleiden. Eerst introduceren we de fundamentele concepten en recente ontwikkelingen in multimodaal begrip en tekst-naar-beeldgeneratiemodellen. Vervolgens bespreken we bestaande geïntegreerde modellen, die we categoriseren in drie hoofdarchitecturale paradigma's: diffusiegebaseerd, autoregressief gebaseerd en hybride benaderingen die autoregressieve en diffusiemechanismen combineren. Voor elke categorie analyseren we de structurele ontwerpen en innovaties die door gerelateerde werken zijn geïntroduceerd. Daarnaast stellen we datasets en benchmarks samen die specifiek zijn afgestemd op geïntegreerde modellen, wat bronnen biedt voor toekomstige verkenning. Tot slot bespreken we de belangrijkste uitdagingen waarmee dit jonge vakgebied te maken heeft, waaronder tokenisatiestrategie, cross-modale aandacht en data. Aangezien dit gebied zich nog in de beginfase bevindt, verwachten we snelle vooruitgang en zullen we dit overzicht regelmatig bijwerken. Ons doel is om verder onderzoek te inspireren en een waardevolle referentie te bieden voor de gemeenschap. De referenties die bij dit overzicht horen, zijn beschikbaar op GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).

English

Recent years have seen remarkable progress in both multimodal understanding models and image generation models. Despite their respective successes, these two domains have evolved independently, leading to distinct architectural paradigms: While autoregressive-based architectures have dominated multimodal understanding, diffusion-based models have become the cornerstone of image generation. Recently, there has been growing interest in developing unified frameworks that integrate these tasks. The emergence of GPT-4o's new capabilities exemplifies this trend, highlighting the potential for unification. However, the architectural differences between the two domains pose significant challenges. To provide a clear overview of current efforts toward unification, we present a comprehensive survey aimed at guiding future research. First, we introduce the foundational concepts and recent advancements in multimodal understanding and text-to-image generation models. Next, we review existing unified models, categorizing them into three main architectural paradigms: diffusion-based, autoregressive-based, and hybrid approaches that fuse autoregressive and diffusion mechanisms. For each category, we analyze the structural designs and innovations introduced by related works. Additionally, we compile datasets and benchmarks tailored for unified models, offering resources for future exploration. Finally, we discuss the key challenges facing this nascent field, including tokenization strategy, cross-modal attention, and data. As this area is still in its early stages, we anticipate rapid advancements and will regularly update this survey. Our goal is to inspire further research and provide a valuable reference for the community. The references associated with this survey are available on GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).

Geïntegreerde Multimodale Begrips- en Generatiemodellen: Vooruitgang, Uitdagingen en Mogelijkheden

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

Samenvatting

Support