Bringt Notizen Machen Fokus? Auf dem Weg zu mehrschichtigem multimodalem Dialoglernen
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning
March 10, 2025
Autoren: Jiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle (MLLMs), die auf groß angelegten vortrainierten Vision-Türmen und Sprachmodellen basieren, haben beeindruckende Fähigkeiten im multimodalen Verständnis gezeigt. Die meisten bestehenden MLLMs werden jedoch anhand von Einzelrunde-Vision-Frage-Antwort-Aufgaben trainiert, die reale menschliche Konversationen nicht genau widerspiegeln. In diesem Artikel stellen wir MMDiag vor, einen multimodalen Dialogdatensatz für Mehrrundenkonversationen. Dieser Datensatz wird durch gezielt entworfene Regeln und GPT-Unterstützung kollaborativ generiert und zeichnet sich durch starke Korrelationen zwischen Fragen, zwischen Fragen und Bildern sowie zwischen verschiedenen Bildregionen aus, wodurch er sich stärker an realen Szenarien orientiert. MMDiag dient als robuste Benchmark für das Lernen von Mehrrunden-Multimodaldialogen und stellt MLLMs vor zusätzliche Herausforderungen in Bezug auf Verankerungs- und Schlussfolgerungsfähigkeiten. Darüber hinaus präsentieren wir, inspiriert von der menschlichen visuellen Verarbeitung, DiagNote, ein MLLM, das mit multimodalen Verankerungs- und Schlussfolgerungsfähigkeiten ausgestattet ist. DiagNote besteht aus zwei Modulen (Deliberate und Gaze), die miteinander interagieren, um Chain-of-Thought und Annotationen während Mehrrundendialogen durchzuführen. Wir zeigen empirisch die Vorteile von DiagNote sowohl in der Verankerung als auch in der gemeinsamen Verarbeitung und Schlussfolgerung von visuellen und sprachlichen Informationen im Vergleich zu bestehenden MLLMs.
English
Multimodal large language models (MLLMs), built on large-scale pre-trained
vision towers and language models, have shown great capabilities in multimodal
understanding. However, most existing MLLMs are trained on single-turn vision
question-answering tasks, which do not accurately reflect real-world human
conversations. In this paper, we introduce MMDiag, a multi-turn multimodal
dialogue dataset. This dataset is collaboratively generated through
deliberately designed rules and GPT assistance, featuring strong correlations
between questions, between questions and images, and among different image
regions; thus aligning more closely with real-world scenarios. MMDiag serves as
a strong benchmark for multi-turn multimodal dialogue learning and brings more
challenges to the grounding and reasoning capabilities of MLLMs. Further,
inspired by human vision processing, we present DiagNote, an MLLM equipped with
multimodal grounding and reasoning capabilities. DiagNote consists of two
modules (Deliberate and Gaze) interacting with each other to perform
Chain-of-Thought and annotations respectively, throughout multi-turn dialogues.
We empirically demonstrate the advantages of DiagNote in both grounding and
jointly processing and reasoning with vision and language information over
existing MLLMs.Summary
AI-Generated Summary