ChatPaper.aiChatPaper

Унифицированные модели для понимания и генерации мультимодальных данных: достижения, вызовы и перспективы

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

May 5, 2025
Авторы: Xinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI

Аннотация

В последние годы наблюдается значительный прогресс как в моделях мультимодального понимания, так и в моделях генерации изображений. Несмотря на их успехи, эти две области развивались независимо, что привело к различным архитектурным парадигмам: в то время как авторегрессионные архитектуры доминируют в мультимодальном понимании, диффузионные модели стали основой генерации изображений. В последнее время растет интерес к разработке унифицированных фреймворков, объединяющих эти задачи. Появление новых возможностей GPT-4o иллюстрирует эту тенденцию, подчеркивая потенциал унификации. Однако архитектурные различия между этими областями создают значительные трудности. Чтобы предоставить четкий обзор текущих усилий по унификации, мы представляем всесторонний обзор, направленный на руководство будущими исследованиями. Сначала мы вводим основные концепции и последние достижения в моделях мультимодального понимания и генерации изображений на основе текста. Затем мы рассматриваем существующие унифицированные модели, классифицируя их на три основные архитектурные парадигмы: диффузионные, авторегрессионные и гибридные подходы, объединяющие авторегрессионные и диффузионные механизмы. Для каждой категории мы анализируем структурные решения и инновации, предложенные в соответствующих работах. Кроме того, мы собираем наборы данных и бенчмарки, адаптированные для унифицированных моделей, предоставляя ресурсы для будущих исследований. Наконец, мы обсуждаем ключевые вызовы, стоящие перед этой зарождающейся областью, включая стратегии токенизации, кросс-модальное внимание и данные. Поскольку эта область находится на ранних этапах развития, мы ожидаем быстрого прогресса и будем регулярно обновлять этот обзор. Наша цель — вдохновить дальнейшие исследования и предоставить ценное справочное пособие для сообщества. Ссылки, связанные с этим обзором, доступны на GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).
English
Recent years have seen remarkable progress in both multimodal understanding models and image generation models. Despite their respective successes, these two domains have evolved independently, leading to distinct architectural paradigms: While autoregressive-based architectures have dominated multimodal understanding, diffusion-based models have become the cornerstone of image generation. Recently, there has been growing interest in developing unified frameworks that integrate these tasks. The emergence of GPT-4o's new capabilities exemplifies this trend, highlighting the potential for unification. However, the architectural differences between the two domains pose significant challenges. To provide a clear overview of current efforts toward unification, we present a comprehensive survey aimed at guiding future research. First, we introduce the foundational concepts and recent advancements in multimodal understanding and text-to-image generation models. Next, we review existing unified models, categorizing them into three main architectural paradigms: diffusion-based, autoregressive-based, and hybrid approaches that fuse autoregressive and diffusion mechanisms. For each category, we analyze the structural designs and innovations introduced by related works. Additionally, we compile datasets and benchmarks tailored for unified models, offering resources for future exploration. Finally, we discuss the key challenges facing this nascent field, including tokenization strategy, cross-modal attention, and data. As this area is still in its early stages, we anticipate rapid advancements and will regularly update this survey. Our goal is to inspire further research and provide a valuable reference for the community. The references associated with this survey are available on GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).

Summary

AI-Generated Summary

PDF604May 8, 2025