Унифицированные модели для понимания и генерации мультимодальных данных: достижения, вызовы и перспективы
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
May 5, 2025
Авторы: Xinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Аннотация
В последние годы наблюдается значительный прогресс как в моделях мультимодального понимания, так и в моделях генерации изображений. Несмотря на их успехи, эти две области развивались независимо, что привело к различным архитектурным парадигмам: в то время как авторегрессионные архитектуры доминируют в мультимодальном понимании, диффузионные модели стали основой генерации изображений. В последнее время растет интерес к разработке унифицированных фреймворков, объединяющих эти задачи. Появление новых возможностей GPT-4o иллюстрирует эту тенденцию, подчеркивая потенциал унификации. Однако архитектурные различия между этими областями создают значительные трудности. Чтобы предоставить четкий обзор текущих усилий по унификации, мы представляем всесторонний обзор, направленный на руководство будущими исследованиями. Сначала мы вводим основные концепции и последние достижения в моделях мультимодального понимания и генерации изображений на основе текста. Затем мы рассматриваем существующие унифицированные модели, классифицируя их на три основные архитектурные парадигмы: диффузионные, авторегрессионные и гибридные подходы, объединяющие авторегрессионные и диффузионные механизмы. Для каждой категории мы анализируем структурные решения и инновации, предложенные в соответствующих работах. Кроме того, мы собираем наборы данных и бенчмарки, адаптированные для унифицированных моделей, предоставляя ресурсы для будущих исследований. Наконец, мы обсуждаем ключевые вызовы, стоящие перед этой зарождающейся областью, включая стратегии токенизации, кросс-модальное внимание и данные. Поскольку эта область находится на ранних этапах развития, мы ожидаем быстрого прогресса и будем регулярно обновлять этот обзор. Наша цель — вдохновить дальнейшие исследования и предоставить ценное справочное пособие для сообщества. Ссылки, связанные с этим обзором, доступны на GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).
English
Recent years have seen remarkable progress in both multimodal understanding
models and image generation models. Despite their respective successes, these
two domains have evolved independently, leading to distinct architectural
paradigms: While autoregressive-based architectures have dominated multimodal
understanding, diffusion-based models have become the cornerstone of image
generation. Recently, there has been growing interest in developing unified
frameworks that integrate these tasks. The emergence of GPT-4o's new
capabilities exemplifies this trend, highlighting the potential for
unification. However, the architectural differences between the two domains
pose significant challenges. To provide a clear overview of current efforts
toward unification, we present a comprehensive survey aimed at guiding future
research. First, we introduce the foundational concepts and recent advancements
in multimodal understanding and text-to-image generation models. Next, we
review existing unified models, categorizing them into three main architectural
paradigms: diffusion-based, autoregressive-based, and hybrid approaches that
fuse autoregressive and diffusion mechanisms. For each category, we analyze the
structural designs and innovations introduced by related works. Additionally,
we compile datasets and benchmarks tailored for unified models, offering
resources for future exploration. Finally, we discuss the key challenges facing
this nascent field, including tokenization strategy, cross-modal attention, and
data. As this area is still in its early stages, we anticipate rapid
advancements and will regularly update this survey. Our goal is to inspire
further research and provide a valuable reference for the community. The
references associated with this survey are available on GitHub
(https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).Summary
AI-Generated Summary