ChatPaper.aiChatPaper

MMDU : Un benchmark de compréhension de dialogue multi-tours et multi-images ainsi qu'un ensemble de données pour l'ajustement par instruction des modèles de langage et vision de haut niveau (LVLM)

MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

June 17, 2024
Auteurs: Ziyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

Résumé

Générer des réponses naturelles et pertinentes pour communiquer avec des entrées humaines multimodales est une capacité fondamentale des grands modèles de vision et de langage (LVLMs). Bien que les LVLMs open-source actuels démontrent des performances prometteuses dans des scénarios simplifiés tels que des entrées à tour unique et image unique, ils sont limités dans les scénarios de conversation réels, comme suivre des instructions dans un contexte historique long avec des tours multiples et des images multiples. Les benchmarks existants pour les LVLMs se concentrent principalement sur des questions à choix unique ou des réponses courtes, ce qui ne permet pas d'évaluer adéquatement les capacités des LVLMs dans les applications d'interaction humain-IA du monde réel. Par conséquent, nous introduisons MMDU, un benchmark complet, et MMDU-45k, un jeu de données d'ajustement d'instructions à grande échelle, conçus pour évaluer et améliorer les capacités des LVLMs dans les conversations à tours multiples et images multiples. Nous utilisons un algorithme de clustering pour trouver les images et descriptions textuelles pertinentes à partir de Wikipédia open-source et construisons les paires question-réponse par des annotateurs humains avec l'assistance du modèle GPT-4o. MMDU contient un maximum de 18k tokens image+texte, 20 images et 27 tours, ce qui est au moins 5 fois plus long que les benchmarks précédents et pose des défis aux LVLMs actuels. Notre analyse approfondie de 15 LVLMs représentatifs utilisant MMDU révèle que les LVLMs open-source sont à la traîne par rapport à leurs homologues propriétaires en raison de données limitées d'ajustement d'instructions conversationnelles. Nous démontrons que l'ajustement fin des LVLMs open-source sur MMDU-45k comble significativement cet écart, générant des conversations plus longues et plus précises, et améliorant les scores sur MMDU et les benchmarks existants (MMStar : +1,1 %, MathVista : +1,5 %, ChartQA : +1,2 %). Nos contributions ouvrent la voie à la réduction de l'écart entre les modèles LVLMs actuels et les exigences des applications réelles. Ce projet est disponible à l'adresse https://github.com/Liuziyu77/MMDU.
English
Generating natural and meaningful responses to communicate with multi-modal human inputs is a fundamental capability of Large Vision-Language Models(LVLMs). While current open-source LVLMs demonstrate promising performance in simplified scenarios such as single-turn single-image input, they fall short in real-world conversation scenarios such as following instructions in a long context history with multi-turn and multi-images. Existing LVLM benchmarks primarily focus on single-choice questions or short-form responses, which do not adequately assess the capabilities of LVLMs in real-world human-AI interaction applications. Therefore, we introduce MMDU, a comprehensive benchmark, and MMDU-45k, a large-scale instruction tuning dataset, designed to evaluate and improve LVLMs' abilities in multi-turn and multi-image conversations. We employ the clustering algorithm to ffnd the relevant images and textual descriptions from the open-source Wikipedia and construct the question-answer pairs by human annotators with the assistance of the GPT-4o model. MMDU has a maximum of 18k image+text tokens, 20 images, and 27 turns, which is at least 5x longer than previous benchmarks and poses challenges to current LVLMs. Our in-depth analysis of 15 representative LVLMs using MMDU reveals that open-source LVLMs lag behind closed-source counterparts due to limited conversational instruction tuning data. We demonstrate that ffne-tuning open-source LVLMs on MMDU-45k signiffcantly address this gap, generating longer and more accurate conversations, and improving scores on MMDU and existing benchmarks (MMStar: +1.1%, MathVista: +1.5%, ChartQA:+1.2%). Our contributions pave the way for bridging the gap between current LVLM models and real-world application demands. This project is available at https://github.com/Liuziyu77/MMDU.

Summary

AI-Generated Summary

PDF646December 6, 2024