Modelos Unificados de Comprensión y Generación Multimodal: Avances, Desafíos y OportunidadesUnified Multimodal Understanding and Generation Models: Advances,
Challenges, and Opportunities
En los últimos años, se ha observado un progreso notable tanto en los modelos de comprensión multimodal como en los modelos de generación de imágenes. A pesar de sus respectivos éxitos, estos dos dominios han evolucionado de manera independiente, dando lugar a paradigmas arquitectónicos distintos: mientras que las arquitecturas basadas en autoregresión han dominado la comprensión multimodal, los modelos basados en difusión se han convertido en el pilar de la generación de imágenes. Recientemente, ha crecido el interés en desarrollar marcos unificados que integren estas tareas. La aparición de las nuevas capacidades de GPT-4o ejemplifica esta tendencia, destacando el potencial de la unificación. Sin embargo, las diferencias arquitectónicas entre ambos dominios plantean desafíos significativos. Para ofrecer una visión clara de los esfuerzos actuales hacia la unificación, presentamos una encuesta exhaustiva destinada a guiar futuras investigaciones. Primero, introducimos los conceptos fundamentales y los avances recientes en los modelos de comprensión multimodal y generación de texto a imagen. Luego, revisamos los modelos unificados existentes, categorizándolos en tres paradigmas arquitectónicos principales: basados en difusión, basados en autoregresión y enfoques híbridos que fusionan mecanismos autoregresivos y de difusión. Para cada categoría, analizamos los diseños estructurales y las innovaciones introducidas por trabajos relacionados. Además, recopilamos conjuntos de datos y puntos de referencia adaptados para modelos unificados, ofreciendo recursos para futuras exploraciones. Finalmente, discutimos los principales desafíos que enfrenta este campo incipiente, incluyendo la estrategia de tokenización, la atención multimodal y los datos. Dado que esta área aún está en sus primeras etapas, anticipamos avances rápidos y actualizaremos regularmente esta encuesta. Nuestro objetivo es inspirar más investigaciones y proporcionar una referencia valiosa para la comunidad. Las referencias asociadas con esta encuesta están disponibles en GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).