MMDU: Ein Benchmark für das Verstehen von Dialogen mit mehreren Runden und mehreren Bildern und ein Datensatz zur Anweisungsabstimmung für LVLMsMMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and
Instruction-Tuning Dataset for LVLMs
Die Generierung natürlicher und sinnvoller Antworten zur Kommunikation mit multimodalen menschlichen Eingaben ist eine grundlegende Fähigkeit großer Bild-Sprach-Modelle (LVLMs). Während aktuelle Open-Source LVLMs vielversprechende Leistungen in vereinfachten Szenarien wie einzelnen Einzelbild-Eingaben in einem Dialog zeigen, bleiben sie in realen Gesprächssituationen wie dem Befolgen von Anweisungen in einem langen Kontextverlauf mit multiplen Dialogrunden und Bildern hinter den Erwartungen zurück. Bestehende LVLM-Benchmarks konzentrieren sich hauptsächlich auf Einzelantwortfragen oder kurze Antworten, die die Fähigkeiten von LVLMs in Anwendungen für die Interaktion zwischen Mensch und KI in der realen Welt nicht angemessen bewerten. Daher stellen wir MMDU vor, einen umfassenden Benchmark, und MMDU-45k, einen groß angelegten Anweisungsabstimmungsdatensatz, der entwickelt wurde, um die Fähigkeiten von LVLMs in mehrstufigen und multiplen Bild-Gesprächen zu bewerten und zu verbessern. Wir verwenden den Cluster-Algorithmus, um relevante Bilder und Textbeschreibungen aus der Open-Source Wikipedia zu finden und konstruieren die Frage-Antwort-Paare durch menschliche Annotatoren mit Unterstützung des GPT-4o-Modells. MMDU umfasst maximal 18k Bild+Text-Tokens, 20 Bilder und 27 Dialogrunden, was mindestens 5-mal länger ist als frühere Benchmarks und Herausforderungen für aktuelle LVLMs darstellt. Unsere eingehende Analyse von 15 repräsentativen LVLMs unter Verwendung von MMDU zeigt, dass Open-Source LVLMs aufgrund begrenzter Daten für die Konversationsanpassung im Rückstand gegenüber geschlossenen Gegenstücken sind. Wir zeigen, dass das Feinabstimmen von Open-Source LVLMs auf MMDU-45k diese Lücke signifikant schließt, längere und genauere Gespräche generiert und die Punktzahlen auf MMDU und bestehenden Benchmarks verbessert (MMStar: +1,1%, MathVista: +1,5%, ChartQA: +1,2%). Unsere Beiträge ebnen den Weg, um die Kluft zwischen aktuellen LVLM-Modellen und den Anforderungen in der realen Welt zu überbrücken. Dieses Projekt ist verfügbar unter https://github.com/Liuziyu77/MMDU.