Modelos Unificados de Comprensión y Generación Multimodal: Avances, Desafíos y Oportunidades
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
May 5, 2025
Autores: Xinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
Resumen
En los últimos años, se ha observado un progreso notable tanto en los modelos de comprensión multimodal como en los modelos de generación de imágenes. A pesar de sus respectivos éxitos, estos dos dominios han evolucionado de manera independiente, dando lugar a paradigmas arquitectónicos distintos: mientras que las arquitecturas basadas en autoregresión han dominado la comprensión multimodal, los modelos basados en difusión se han convertido en el pilar de la generación de imágenes. Recientemente, ha crecido el interés en desarrollar marcos unificados que integren estas tareas. La aparición de las nuevas capacidades de GPT-4o ejemplifica esta tendencia, destacando el potencial de la unificación. Sin embargo, las diferencias arquitectónicas entre ambos dominios plantean desafíos significativos. Para ofrecer una visión clara de los esfuerzos actuales hacia la unificación, presentamos una encuesta exhaustiva destinada a guiar futuras investigaciones. Primero, introducimos los conceptos fundamentales y los avances recientes en los modelos de comprensión multimodal y generación de texto a imagen. Luego, revisamos los modelos unificados existentes, categorizándolos en tres paradigmas arquitectónicos principales: basados en difusión, basados en autoregresión y enfoques híbridos que fusionan mecanismos autoregresivos y de difusión. Para cada categoría, analizamos los diseños estructurales y las innovaciones introducidas por trabajos relacionados. Además, recopilamos conjuntos de datos y puntos de referencia adaptados para modelos unificados, ofreciendo recursos para futuras exploraciones. Finalmente, discutimos los principales desafíos que enfrenta este campo incipiente, incluyendo la estrategia de tokenización, la atención multimodal y los datos. Dado que esta área aún está en sus primeras etapas, anticipamos avances rápidos y actualizaremos regularmente esta encuesta. Nuestro objetivo es inspirar más investigaciones y proporcionar una referencia valiosa para la comunidad. Las referencias asociadas con esta encuesta están disponibles en GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).
English
Recent years have seen remarkable progress in both multimodal understanding
models and image generation models. Despite their respective successes, these
two domains have evolved independently, leading to distinct architectural
paradigms: While autoregressive-based architectures have dominated multimodal
understanding, diffusion-based models have become the cornerstone of image
generation. Recently, there has been growing interest in developing unified
frameworks that integrate these tasks. The emergence of GPT-4o's new
capabilities exemplifies this trend, highlighting the potential for
unification. However, the architectural differences between the two domains
pose significant challenges. To provide a clear overview of current efforts
toward unification, we present a comprehensive survey aimed at guiding future
research. First, we introduce the foundational concepts and recent advancements
in multimodal understanding and text-to-image generation models. Next, we
review existing unified models, categorizing them into three main architectural
paradigms: diffusion-based, autoregressive-based, and hybrid approaches that
fuse autoregressive and diffusion mechanisms. For each category, we analyze the
structural designs and innovations introduced by related works. Additionally,
we compile datasets and benchmarks tailored for unified models, offering
resources for future exploration. Finally, we discuss the key challenges facing
this nascent field, including tokenization strategy, cross-modal attention, and
data. As this area is still in its early stages, we anticipate rapid
advancements and will regularly update this survey. Our goal is to inspire
further research and provide a valuable reference for the community. The
references associated with this survey are available on GitHub
(https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).Summary
AI-Generated Summary