ChatPaper.aiChatPaper

MMDU: Un Benchmark per la Comprensione del Dialogo Multi-Turn e Multi-Immagine e un Dataset per l'Instruction-Tuning di LVLM

MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

June 17, 2024
Autori: Ziyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

Abstract

Generare risposte naturali e significative per comunicare con input umani multimodali è una capacità fondamentale dei Modelli Linguistico-Visuali di Grande Scala (LVLM). Mentre gli attuali LVLM open-source dimostrano prestazioni promettenti in scenari semplificati come input a singolo turno e singola immagine, risultano carenti in scenari di conversazione del mondo reale, come seguire istruzioni in un contesto storico lungo con multi-turno e multi-immagini. I benchmark esistenti per LVLM si concentrano principalmente su domande a scelta singola o risposte brevi, che non valutano adeguatamente le capacità degli LVLM nelle applicazioni di interazione uomo-IA del mondo reale. Pertanto, introduciamo MMDU, un benchmark completo, e MMDU-45k, un ampio dataset di tuning delle istruzioni, progettati per valutare e migliorare le capacità degli LVLM nelle conversazioni multi-turno e multi-immagini. Utilizziamo un algoritmo di clustering per trovare le immagini e le descrizioni testuali rilevanti da Wikipedia open-source e costruiamo le coppie domanda-risposta con annotatori umani assistiti dal modello GPT-4. MMDU ha un massimo di 18k token di immagine+testo, 20 immagini e 27 turni, che è almeno 5 volte più lungo dei benchmark precedenti e pone sfide agli attuali LVLM. La nostra analisi approfondita di 15 LVLM rappresentativi utilizzando MMDU rivela che gli LVLM open-source sono in ritardo rispetto alle controparti closed-source a causa dei dati limitati di tuning delle istruzioni conversazionali. Dimostriamo che il fine-tuning degli LVLM open-source su MMDU-45k affronta significativamente questo divario, generando conversazioni più lunghe e accurate e migliorando i punteggi su MMDU e benchmark esistenti (MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%). I nostri contributi aprono la strada per colmare il divario tra gli attuali modelli LVLM e le esigenze delle applicazioni del mondo reale. Questo progetto è disponibile all'indirizzo https://github.com/Liuziyu77/MMDU.
English
Generating natural and meaningful responses to communicate with multi-modal human inputs is a fundamental capability of Large Vision-Language Models(LVLMs). While current open-source LVLMs demonstrate promising performance in simplified scenarios such as single-turn single-image input, they fall short in real-world conversation scenarios such as following instructions in a long context history with multi-turn and multi-images. Existing LVLM benchmarks primarily focus on single-choice questions or short-form responses, which do not adequately assess the capabilities of LVLMs in real-world human-AI interaction applications. Therefore, we introduce MMDU, a comprehensive benchmark, and MMDU-45k, a large-scale instruction tuning dataset, designed to evaluate and improve LVLMs' abilities in multi-turn and multi-image conversations. We employ the clustering algorithm to ffnd the relevant images and textual descriptions from the open-source Wikipedia and construct the question-answer pairs by human annotators with the assistance of the GPT-4o model. MMDU has a maximum of 18k image+text tokens, 20 images, and 27 turns, which is at least 5x longer than previous benchmarks and poses challenges to current LVLMs. Our in-depth analysis of 15 representative LVLMs using MMDU reveals that open-source LVLMs lag behind closed-source counterparts due to limited conversational instruction tuning data. We demonstrate that ffne-tuning open-source LVLMs on MMDU-45k signiffcantly address this gap, generating longer and more accurate conversations, and improving scores on MMDU and existing benchmarks (MMStar: +1.1%, MathVista: +1.5%, ChartQA:+1.2%). Our contributions pave the way for bridging the gap between current LVLM models and real-world application demands. This project is available at https://github.com/Liuziyu77/MMDU.
PDF636February 8, 2026