ChatPaper.aiChatPaper

Prendre des notes favorise-t-il la concentration ? Vers un apprentissage de dialogues multimodaux multi-tours

Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning

March 10, 2025
Auteurs: Jiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu
cs.AI

Résumé

Les modèles de langage multimodaux à grande échelle (MLLMs), construits sur des tours de vision et des modèles de langage pré-entraînés à grande échelle, ont démontré d'excellentes capacités en compréhension multimodale. Cependant, la plupart des MLLMs existants sont entraînés sur des tâches de question-réponse visuelle en un seul tour, ce qui ne reflète pas fidèlement les conversations humaines réelles. Dans cet article, nous présentons MMDiag, un ensemble de données de dialogue multimodal multi-tours. Ce jeu de données est généré de manière collaborative grâce à des règles soigneusement conçues et à l'assistance de GPT, mettant en avant des corrélations fortes entre les questions, entre les questions et les images, et entre différentes régions d'une image ; s'alignant ainsi plus étroitement sur des scénarios réels. MMDiag sert de référence solide pour l'apprentissage des dialogues multimodaux multi-tours et apporte des défis supplémentaires aux capacités d'ancrage et de raisonnement des MLLMs. De plus, inspiré par le traitement visuel humain, nous présentons DiagNote, un MLLM doté de capacités d'ancrage et de raisonnement multimodal. DiagNote se compose de deux modules (Deliberate et Gaze) interagissant l'un avec l'autre pour effectuer respectivement une Chaîne de Pensée et des annotations tout au long des dialogues multi-tours. Nous démontrons empiriquement les avantages de DiagNote en matière d'ancrage et de traitement conjoint ainsi que de raisonnement avec des informations visuelles et linguistiques par rapport aux MLLMs existants.
English
Multimodal large language models (MLLMs), built on large-scale pre-trained vision towers and language models, have shown great capabilities in multimodal understanding. However, most existing MLLMs are trained on single-turn vision question-answering tasks, which do not accurately reflect real-world human conversations. In this paper, we introduce MMDiag, a multi-turn multimodal dialogue dataset. This dataset is collaboratively generated through deliberately designed rules and GPT assistance, featuring strong correlations between questions, between questions and images, and among different image regions; thus aligning more closely with real-world scenarios. MMDiag serves as a strong benchmark for multi-turn multimodal dialogue learning and brings more challenges to the grounding and reasoning capabilities of MLLMs. Further, inspired by human vision processing, we present DiagNote, an MLLM equipped with multimodal grounding and reasoning capabilities. DiagNote consists of two modules (Deliberate and Gaze) interacting with each other to perform Chain-of-Thought and annotations respectively, throughout multi-turn dialogues. We empirically demonstrate the advantages of DiagNote in both grounding and jointly processing and reasoning with vision and language information over existing MLLMs.

Summary

AI-Generated Summary

PDF402March 11, 2025