MMDU: Un punto de referencia para la comprensión de diálogos multimodales con múltiples turnos e imágenes, y un conjunto de datos para el ajuste por instrucciones en modelos de lenguaje y visión multimodal (LVLMs)MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and
Instruction-Tuning Dataset for LVLMs
Generar respuestas naturales y significativas para comunicarse con entradas humanas multimodales es una capacidad fundamental de los Modelos de Lenguaje y Visión a Gran Escala (LVLMs, por sus siglas en inglés). Si bien los LVLMs de código abierto actuales demuestran un rendimiento prometedor en escenarios simplificados, como entradas de una sola imagen y un solo turno, se quedan cortos en escenarios de conversación del mundo real, como seguir instrucciones en un contexto histórico largo con múltiples turnos e imágenes. Los puntos de referencia existentes para LVLMs se centran principalmente en preguntas de opción única o respuestas breves, lo que no evalúa adecuadamente las capacidades de los LVLMs en aplicaciones de interacción humano-IA del mundo real. Por ello, presentamos MMDU, un punto de referencia integral, y MMDU-45k, un conjunto de datos de ajuste de instrucciones a gran escala, diseñados para evaluar y mejorar las habilidades de los LVLMs en conversaciones con múltiples turnos e imágenes. Empleamos un algoritmo de agrupamiento para encontrar las imágenes y descripciones textuales relevantes de Wikipedia de código abierto y construimos pares de preguntas y respuestas mediante anotadores humanos con la asistencia del modelo GPT-4. MMDU tiene un máximo de 18k tokens de imagen+texto, 20 imágenes y 27 turnos, lo que es al menos 5 veces más largo que los puntos de referencia anteriores y plantea desafíos a los LVLMs actuales. Nuestro análisis en profundidad de 15 LVLMs representativos utilizando MMDU revela que los LVLMs de código abierto están rezagados respecto a sus contrapartes de código cerrado debido a datos limitados de ajuste de instrucciones conversacionales. Demostramos que el ajuste fino de los LVLMs de código abierto en MMDU-45k aborda significativamente esta brecha, generando conversaciones más largas y precisas, y mejorando las puntuaciones en MMDU y en puntos de referencia existentes (MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%). Nuestras contribuciones allanan el camino para cerrar la brecha entre los modelos LVLM actuales y las demandas de aplicaciones del mundo real. Este proyecto está disponible en https://github.com/Liuziyu77/MMDU.