ChatPaper.aiChatPaper

MMDU: Ein Benchmark für das Verstehen von Dialogen mit mehreren Runden und mehreren Bildern und ein Datensatz zur Anweisungsabstimmung für LVLMs

MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

June 17, 2024
Autoren: Ziyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

Zusammenfassung

Die Generierung natürlicher und sinnvoller Antworten zur Kommunikation mit multimodalen menschlichen Eingaben ist eine grundlegende Fähigkeit großer Bild-Sprach-Modelle (LVLMs). Während aktuelle Open-Source LVLMs vielversprechende Leistungen in vereinfachten Szenarien wie einzelnen Einzelbild-Eingaben in einem Dialog zeigen, bleiben sie in realen Gesprächssituationen wie dem Befolgen von Anweisungen in einem langen Kontextverlauf mit multiplen Dialogrunden und Bildern hinter den Erwartungen zurück. Bestehende LVLM-Benchmarks konzentrieren sich hauptsächlich auf Einzelantwortfragen oder kurze Antworten, die die Fähigkeiten von LVLMs in Anwendungen für die Interaktion zwischen Mensch und KI in der realen Welt nicht angemessen bewerten. Daher stellen wir MMDU vor, einen umfassenden Benchmark, und MMDU-45k, einen groß angelegten Anweisungsabstimmungsdatensatz, der entwickelt wurde, um die Fähigkeiten von LVLMs in mehrstufigen und multiplen Bild-Gesprächen zu bewerten und zu verbessern. Wir verwenden den Cluster-Algorithmus, um relevante Bilder und Textbeschreibungen aus der Open-Source Wikipedia zu finden und konstruieren die Frage-Antwort-Paare durch menschliche Annotatoren mit Unterstützung des GPT-4o-Modells. MMDU umfasst maximal 18k Bild+Text-Tokens, 20 Bilder und 27 Dialogrunden, was mindestens 5-mal länger ist als frühere Benchmarks und Herausforderungen für aktuelle LVLMs darstellt. Unsere eingehende Analyse von 15 repräsentativen LVLMs unter Verwendung von MMDU zeigt, dass Open-Source LVLMs aufgrund begrenzter Daten für die Konversationsanpassung im Rückstand gegenüber geschlossenen Gegenstücken sind. Wir zeigen, dass das Feinabstimmen von Open-Source LVLMs auf MMDU-45k diese Lücke signifikant schließt, längere und genauere Gespräche generiert und die Punktzahlen auf MMDU und bestehenden Benchmarks verbessert (MMStar: +1,1%, MathVista: +1,5%, ChartQA: +1,2%). Unsere Beiträge ebnen den Weg, um die Kluft zwischen aktuellen LVLM-Modellen und den Anforderungen in der realen Welt zu überbrücken. Dieses Projekt ist verfügbar unter https://github.com/Liuziyu77/MMDU.
English
Generating natural and meaningful responses to communicate with multi-modal human inputs is a fundamental capability of Large Vision-Language Models(LVLMs). While current open-source LVLMs demonstrate promising performance in simplified scenarios such as single-turn single-image input, they fall short in real-world conversation scenarios such as following instructions in a long context history with multi-turn and multi-images. Existing LVLM benchmarks primarily focus on single-choice questions or short-form responses, which do not adequately assess the capabilities of LVLMs in real-world human-AI interaction applications. Therefore, we introduce MMDU, a comprehensive benchmark, and MMDU-45k, a large-scale instruction tuning dataset, designed to evaluate and improve LVLMs' abilities in multi-turn and multi-image conversations. We employ the clustering algorithm to ffnd the relevant images and textual descriptions from the open-source Wikipedia and construct the question-answer pairs by human annotators with the assistance of the GPT-4o model. MMDU has a maximum of 18k image+text tokens, 20 images, and 27 turns, which is at least 5x longer than previous benchmarks and poses challenges to current LVLMs. Our in-depth analysis of 15 representative LVLMs using MMDU reveals that open-source LVLMs lag behind closed-source counterparts due to limited conversational instruction tuning data. We demonstrate that ffne-tuning open-source LVLMs on MMDU-45k signiffcantly address this gap, generating longer and more accurate conversations, and improving scores on MMDU and existing benchmarks (MMStar: +1.1%, MathVista: +1.5%, ChartQA:+1.2%). Our contributions pave the way for bridging the gap between current LVLM models and real-world application demands. This project is available at https://github.com/Liuziyu77/MMDU.

Summary

AI-Generated Summary

PDF646December 6, 2024