Tomar Notas Traz Foco? Rumo ao Aprendizado de Diálogo Multimodal em Múltiplos Turnos
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning
March 10, 2025
Autores: Jiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu
cs.AI
Resumo
Modelos de linguagem multimodal de grande escala (MLLMs), construídos sobre torres de visão e modelos de linguagem pré-treinados em larga escala, têm demonstrado grandes capacidades em compreensão multimodal. No entanto, a maioria dos MLLMs existentes é treinada em tarefas de questionamento e resposta visual de turno único, o que não reflete com precisão as conversas humanas do mundo real. Neste artigo, introduzimos o MMDiag, um conjunto de dados de diálogo multimodal de múltiplos turnos. Este conjunto de dados é gerado de forma colaborativa por meio de regras cuidadosamente projetadas e com a assistência do GPT, apresentando fortes correlações entre perguntas, entre perguntas e imagens, e entre diferentes regiões da imagem; alinhando-se, assim, mais de perto com cenários do mundo real. O MMDiag serve como um forte benchmark para o aprendizado de diálogo multimodal de múltiplos turnos e traz mais desafios às capacidades de fundamentação e raciocínio dos MLLMs. Além disso, inspirados pelo processamento visual humano, apresentamos o DiagNote, um MLLM equipado com capacidades de fundamentação e raciocínio multimodal. O DiagNote consiste em dois módulos (Deliberate e Gaze) que interagem entre si para realizar, respectivamente, Chain-of-Thought e anotações ao longo de diálogos de múltiplos turnos. Demonstramos empiricamente as vantagens do DiagNote tanto na fundamentação quanto no processamento e raciocínio conjunto de informações visuais e linguísticas em relação aos MLLMs existentes.
English
Multimodal large language models (MLLMs), built on large-scale pre-trained
vision towers and language models, have shown great capabilities in multimodal
understanding. However, most existing MLLMs are trained on single-turn vision
question-answering tasks, which do not accurately reflect real-world human
conversations. In this paper, we introduce MMDiag, a multi-turn multimodal
dialogue dataset. This dataset is collaboratively generated through
deliberately designed rules and GPT assistance, featuring strong correlations
between questions, between questions and images, and among different image
regions; thus aligning more closely with real-world scenarios. MMDiag serves as
a strong benchmark for multi-turn multimodal dialogue learning and brings more
challenges to the grounding and reasoning capabilities of MLLMs. Further,
inspired by human vision processing, we present DiagNote, an MLLM equipped with
multimodal grounding and reasoning capabilities. DiagNote consists of two
modules (Deliberate and Gaze) interacting with each other to perform
Chain-of-Thought and annotations respectively, throughout multi-turn dialogues.
We empirically demonstrate the advantages of DiagNote in both grounding and
jointly processing and reasoning with vision and language information over
existing MLLMs.Summary
AI-Generated Summary