MMDU: Un punto de referencia para la comprensión de diálogos multimodales con múltiples turnos e imágenes, y un conjunto de datos para el ajuste por instrucciones en modelos de lenguaje y visión multimodal (LVLMs)
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs
June 17, 2024
Autores: Ziyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
Generar respuestas naturales y significativas para comunicarse con entradas humanas multimodales es una capacidad fundamental de los Modelos de Lenguaje y Visión a Gran Escala (LVLMs, por sus siglas en inglés). Si bien los LVLMs de código abierto actuales demuestran un rendimiento prometedor en escenarios simplificados, como entradas de una sola imagen y un solo turno, se quedan cortos en escenarios de conversación del mundo real, como seguir instrucciones en un contexto histórico largo con múltiples turnos e imágenes. Los puntos de referencia existentes para LVLMs se centran principalmente en preguntas de opción única o respuestas breves, lo que no evalúa adecuadamente las capacidades de los LVLMs en aplicaciones de interacción humano-IA del mundo real. Por ello, presentamos MMDU, un punto de referencia integral, y MMDU-45k, un conjunto de datos de ajuste de instrucciones a gran escala, diseñados para evaluar y mejorar las habilidades de los LVLMs en conversaciones con múltiples turnos e imágenes. Empleamos un algoritmo de agrupamiento para encontrar las imágenes y descripciones textuales relevantes de Wikipedia de código abierto y construimos pares de preguntas y respuestas mediante anotadores humanos con la asistencia del modelo GPT-4. MMDU tiene un máximo de 18k tokens de imagen+texto, 20 imágenes y 27 turnos, lo que es al menos 5 veces más largo que los puntos de referencia anteriores y plantea desafíos a los LVLMs actuales. Nuestro análisis en profundidad de 15 LVLMs representativos utilizando MMDU revela que los LVLMs de código abierto están rezagados respecto a sus contrapartes de código cerrado debido a datos limitados de ajuste de instrucciones conversacionales. Demostramos que el ajuste fino de los LVLMs de código abierto en MMDU-45k aborda significativamente esta brecha, generando conversaciones más largas y precisas, y mejorando las puntuaciones en MMDU y en puntos de referencia existentes (MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%). Nuestras contribuciones allanan el camino para cerrar la brecha entre los modelos LVLM actuales y las demandas de aplicaciones del mundo real. Este proyecto está disponible en https://github.com/Liuziyu77/MMDU.
English
Generating natural and meaningful responses to communicate with multi-modal
human inputs is a fundamental capability of Large Vision-Language
Models(LVLMs). While current open-source LVLMs demonstrate promising
performance in simplified scenarios such as single-turn single-image input,
they fall short in real-world conversation scenarios such as following
instructions in a long context history with multi-turn and multi-images.
Existing LVLM benchmarks primarily focus on single-choice questions or
short-form responses, which do not adequately assess the capabilities of LVLMs
in real-world human-AI interaction applications. Therefore, we introduce MMDU,
a comprehensive benchmark, and MMDU-45k, a large-scale instruction tuning
dataset, designed to evaluate and improve LVLMs' abilities in multi-turn and
multi-image conversations. We employ the clustering algorithm to ffnd the
relevant images and textual descriptions from the open-source Wikipedia and
construct the question-answer pairs by human annotators with the assistance of
the GPT-4o model. MMDU has a maximum of 18k image+text tokens, 20 images, and
27 turns, which is at least 5x longer than previous benchmarks and poses
challenges to current LVLMs. Our in-depth analysis of 15 representative LVLMs
using MMDU reveals that open-source LVLMs lag behind closed-source counterparts
due to limited conversational instruction tuning data. We demonstrate that
ffne-tuning open-source LVLMs on MMDU-45k signiffcantly address this gap,
generating longer and more accurate conversations, and improving scores on MMDU
and existing benchmarks (MMStar: +1.1%, MathVista: +1.5%, ChartQA:+1.2%). Our
contributions pave the way for bridging the gap between current LVLM models and
real-world application demands. This project is available at
https://github.com/Liuziyu77/MMDU.Summary
AI-Generated Summary