MMDU : Un benchmark de compréhension de dialogue multi-tours et multi-images ainsi qu'un ensemble de données pour l'ajustement par instruction des modèles de langage et vision de haut niveau (LVLM)MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and
Instruction-Tuning Dataset for LVLMs
Générer des réponses naturelles et pertinentes pour communiquer avec des entrées humaines multimodales est une capacité fondamentale des grands modèles de vision et de langage (LVLMs). Bien que les LVLMs open-source actuels démontrent des performances prometteuses dans des scénarios simplifiés tels que des entrées à tour unique et image unique, ils sont limités dans les scénarios de conversation réels, comme suivre des instructions dans un contexte historique long avec des tours multiples et des images multiples. Les benchmarks existants pour les LVLMs se concentrent principalement sur des questions à choix unique ou des réponses courtes, ce qui ne permet pas d'évaluer adéquatement les capacités des LVLMs dans les applications d'interaction humain-IA du monde réel. Par conséquent, nous introduisons MMDU, un benchmark complet, et MMDU-45k, un jeu de données d'ajustement d'instructions à grande échelle, conçus pour évaluer et améliorer les capacités des LVLMs dans les conversations à tours multiples et images multiples. Nous utilisons un algorithme de clustering pour trouver les images et descriptions textuelles pertinentes à partir de Wikipédia open-source et construisons les paires question-réponse par des annotateurs humains avec l'assistance du modèle GPT-4o. MMDU contient un maximum de 18k tokens image+texte, 20 images et 27 tours, ce qui est au moins 5 fois plus long que les benchmarks précédents et pose des défis aux LVLMs actuels. Notre analyse approfondie de 15 LVLMs représentatifs utilisant MMDU révèle que les LVLMs open-source sont à la traîne par rapport à leurs homologues propriétaires en raison de données limitées d'ajustement d'instructions conversationnelles. Nous démontrons que l'ajustement fin des LVLMs open-source sur MMDU-45k comble significativement cet écart, générant des conversations plus longues et plus précises, et améliorant les scores sur MMDU et les benchmarks existants (MMStar : +1,1 %, MathVista : +1,5 %, ChartQA : +1,2 %). Nos contributions ouvrent la voie à la réduction de l'écart entre les modèles LVLMs actuels et les exigences des applications réelles. Ce projet est disponible à l'adresse https://github.com/Liuziyu77/MMDU.