Notities Maken Brengt Focus? Naar Multi-Turn Multimodale Dialoogleren
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning
March 10, 2025
Auteurs: Jiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu
cs.AI
Samenvatting
Multimodale grote taalmodellen (MLLMs), gebouwd op grootschalige vooraf getrainde visuele torens en taalmodellen, hebben grote mogelijkheden getoond in multimodale begripsvorming. De meeste bestaande MLLMs zijn echter getraind op enkelvoudige visuele vraag-antwoordtaken, wat niet nauwkeurig de realistische menselijke gesprekken weerspiegelt. In dit artikel introduceren we MMDiag, een multi-turn multimodaal dialoogdataset. Deze dataset is gezamenlijk gegenereerd via zorgvuldig ontworpen regels en GPT-assistentie, met sterke correlaties tussen vragen, tussen vragen en afbeeldingen, en tussen verschillende beeldregio's; waardoor deze beter aansluit bij realistische scenario's. MMDiag dient als een sterke benchmark voor multi-turn multimodale dialoogleerprocessen en brengt meer uitdagingen voor de grondings- en redeneervaardigheden van MLLMs. Verder presenteren we, geïnspireerd door menselijke visuele verwerking, DiagNote, een MLLM uitgerust met multimodale grondings- en redeneervaardigheden. DiagNote bestaat uit twee modules (Deliberate en Gaze) die met elkaar interageren om respectievelijk Chain-of-Thought en annotaties uit te voeren gedurende multi-turn dialogen. We tonen empirisch de voordelen van DiagNote aan in zowel gronding als het gezamenlijk verwerken en redeneren met visuele en taalgegevens ten opzichte van bestaande MLLMs.
English
Multimodal large language models (MLLMs), built on large-scale pre-trained
vision towers and language models, have shown great capabilities in multimodal
understanding. However, most existing MLLMs are trained on single-turn vision
question-answering tasks, which do not accurately reflect real-world human
conversations. In this paper, we introduce MMDiag, a multi-turn multimodal
dialogue dataset. This dataset is collaboratively generated through
deliberately designed rules and GPT assistance, featuring strong correlations
between questions, between questions and images, and among different image
regions; thus aligning more closely with real-world scenarios. MMDiag serves as
a strong benchmark for multi-turn multimodal dialogue learning and brings more
challenges to the grounding and reasoning capabilities of MLLMs. Further,
inspired by human vision processing, we present DiagNote, an MLLM equipped with
multimodal grounding and reasoning capabilities. DiagNote consists of two
modules (Deliberate and Gaze) interacting with each other to perform
Chain-of-Thought and annotations respectively, throughout multi-turn dialogues.
We empirically demonstrate the advantages of DiagNote in both grounding and
jointly processing and reasoning with vision and language information over
existing MLLMs.