ChatPaper.aiChatPaper

メモを取ることで集中力が高まるのか?マルチターン・マルチモーダル対話学習に向けて

Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning

March 10, 2025
著者: Jiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu
cs.AI

要旨

大規模な事前学習済み視覚タワーと言語モデルを基盤としたマルチモーダル大規模言語モデル(MLLM)は、マルチモーダル理解において優れた能力を示しています。しかし、既存のMLLMの多くは単一ターンの視覚質問応答タスクで訓練されており、現実世界の人間の会話を正確に反映していません。本論文では、マルチターンのマルチモーダル対話データセットであるMMDiagを紹介します。このデータセットは、意図的に設計されたルールとGPTの支援を通じて共同生成され、質問間、質問と画像間、および異なる画像領域間の強い相関関係を特徴としており、現実世界のシナリオにより近いものとなっています。MMDiagは、マルチターンのマルチモーダル対話学習の強力なベンチマークとして機能し、MLLMの基盤付けと推論能力にさらなる課題をもたらします。さらに、人間の視覚処理に着想を得て、マルチモーダル基盤付けと推論能力を備えたMLLMであるDiagNoteを提案します。DiagNoteは、マルチターンの対話を通じてChain-of-Thoughtと注釈をそれぞれ実行する2つのモジュール(DeliberateとGaze)で構成され、互いに相互作用します。我々は、DiagNoteが既存のMLLMと比較して、基盤付けと視覚・言語情報の共同処理および推論において優位性を持つことを実証的に示します。
English
Multimodal large language models (MLLMs), built on large-scale pre-trained vision towers and language models, have shown great capabilities in multimodal understanding. However, most existing MLLMs are trained on single-turn vision question-answering tasks, which do not accurately reflect real-world human conversations. In this paper, we introduce MMDiag, a multi-turn multimodal dialogue dataset. This dataset is collaboratively generated through deliberately designed rules and GPT assistance, featuring strong correlations between questions, between questions and images, and among different image regions; thus aligning more closely with real-world scenarios. MMDiag serves as a strong benchmark for multi-turn multimodal dialogue learning and brings more challenges to the grounding and reasoning capabilities of MLLMs. Further, inspired by human vision processing, we present DiagNote, an MLLM equipped with multimodal grounding and reasoning capabilities. DiagNote consists of two modules (Deliberate and Gaze) interacting with each other to perform Chain-of-Thought and annotations respectively, throughout multi-turn dialogues. We empirically demonstrate the advantages of DiagNote in both grounding and jointly processing and reasoning with vision and language information over existing MLLMs.

Summary

AI-Generated Summary

PDF402March 11, 2025