노트 작성이 집중력을 높일까? 다중 턴 멀티모달 대화 학습을 향하여
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning
March 10, 2025
저자: Jiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu
cs.AI
초록
대규모 사전 학습된 비전 타워와 언어 모델을 기반으로 구축된 멀티모달 대형 언어 모델(MLLMs)은 멀티모달 이해에서 뛰어난 능력을 보여주고 있습니다. 그러나 기존의 대부분의 MLLMs는 단일 턴 비전 질의응답 작업에 대해 학습되어 있어, 실제 인간 대화를 정확히 반영하지 못합니다. 본 논문에서는 다중 턴 멀티모달 대화 데이터셋인 MMDiag를 소개합니다. 이 데이터셋은 신중하게 설계된 규칙과 GPT의 도움을 통해 협력적으로 생성되었으며, 질문 간, 질문과 이미지 간, 그리고 서로 다른 이미지 영역 간의 강한 상관관계를 특징으로 하여 실제 시나리오와 더욱 근접하게 정렬됩니다. MMDiag는 다중 턴 멀티모달 대화 학습을 위한 강력한 벤치마크 역할을 하며, MLLMs의 근거 추론 및 추론 능력에 더 많은 도전을 제공합니다. 더 나아가, 인간의 시각 처리에서 영감을 받아 멀티모달 근거 추론 및 추론 능력을 갖춘 MLLM인 DiagNote를 제안합니다. DiagNote는 다중 턴 대화 전반에 걸쳐 Chain-of-Thought와 주석을 각각 수행하는 두 모듈(Deliberate와 Gaze)로 구성되어 상호 작용합니다. 우리는 DiagNote가 기존 MLLMs에 비해 근거 추론 및 비전과 언어 정보를 함께 처리하고 추론하는 데 있어서의 장점을 실증적으로 입증합니다.
English
Multimodal large language models (MLLMs), built on large-scale pre-trained
vision towers and language models, have shown great capabilities in multimodal
understanding. However, most existing MLLMs are trained on single-turn vision
question-answering tasks, which do not accurately reflect real-world human
conversations. In this paper, we introduce MMDiag, a multi-turn multimodal
dialogue dataset. This dataset is collaboratively generated through
deliberately designed rules and GPT assistance, featuring strong correlations
between questions, between questions and images, and among different image
regions; thus aligning more closely with real-world scenarios. MMDiag serves as
a strong benchmark for multi-turn multimodal dialogue learning and brings more
challenges to the grounding and reasoning capabilities of MLLMs. Further,
inspired by human vision processing, we present DiagNote, an MLLM equipped with
multimodal grounding and reasoning capabilities. DiagNote consists of two
modules (Deliberate and Gaze) interacting with each other to perform
Chain-of-Thought and annotations respectively, throughout multi-turn dialogues.
We empirically demonstrate the advantages of DiagNote in both grounding and
jointly processing and reasoning with vision and language information over
existing MLLMs.Summary
AI-Generated Summary