Prendere Appunti Porta alla Concentrazione? Verso un Apprendimento Dialogico Multimodale a Più Turni
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning
March 10, 2025
Autori: Jiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLMs), costruiti su torri visive e modelli linguistici pre-addestrati su larga scala, hanno dimostrato grandi capacità nella comprensione multimodale. Tuttavia, la maggior parte degli MLLM esistenti viene addestrata su task di risposta a domande visive a turno singolo, che non riflettono accuratamente le conversazioni umane nel mondo reale. In questo articolo, introduciamo MMDiag, un dataset di dialogo multimodale a più turni. Questo dataset è generato in modo collaborativo attraverso regole progettate deliberatamente e con l'assistenza di GPT, presentando forti correlazioni tra le domande, tra le domande e le immagini, e tra diverse regioni dell'immagine; allineandosi così più strettamente agli scenari del mondo reale. MMDiag funge da solido benchmark per l'apprendimento del dialogo multimodale a più turni e pone maggiori sfide alle capacità di grounding e ragionamento degli MLLM. Inoltre, ispirati dal processo visivo umano, presentiamo DiagNote, un MLLM dotato di capacità di grounding e ragionamento multimodale. DiagNote è composto da due moduli (Deliberate e Gaze) che interagiscono tra loro per eseguire rispettivamente il Chain-of-Thought e le annotazioni, durante dialoghi a più turni. Dimostriamo empiricamente i vantaggi di DiagNote sia nel grounding che nell'elaborazione e ragionamento congiunto di informazioni visive e linguistiche rispetto agli MLLM esistenti.
English
Multimodal large language models (MLLMs), built on large-scale pre-trained
vision towers and language models, have shown great capabilities in multimodal
understanding. However, most existing MLLMs are trained on single-turn vision
question-answering tasks, which do not accurately reflect real-world human
conversations. In this paper, we introduce MMDiag, a multi-turn multimodal
dialogue dataset. This dataset is collaboratively generated through
deliberately designed rules and GPT assistance, featuring strong correlations
between questions, between questions and images, and among different image
regions; thus aligning more closely with real-world scenarios. MMDiag serves as
a strong benchmark for multi-turn multimodal dialogue learning and brings more
challenges to the grounding and reasoning capabilities of MLLMs. Further,
inspired by human vision processing, we present DiagNote, an MLLM equipped with
multimodal grounding and reasoning capabilities. DiagNote consists of two
modules (Deliberate and Gaze) interacting with each other to perform
Chain-of-Thought and annotations respectively, throughout multi-turn dialogues.
We empirically demonstrate the advantages of DiagNote in both grounding and
jointly processing and reasoning with vision and language information over
existing MLLMs.Summary
AI-Generated Summary