¿Tomar notas mejora la concentración? Hacia el aprendizaje de diálogos multimodales de múltiples turnos
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning
March 10, 2025
Autores: Jiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), construidos sobre torres de visión y modelos de lenguaje preentrenados a gran escala, han demostrado grandes capacidades en la comprensión multimodal. Sin embargo, la mayoría de los MLLMs existentes se entrenan en tareas de preguntas y respuestas visuales de un solo turno, lo que no refleja con precisión las conversaciones humanas del mundo real. En este artículo, presentamos MMDiag, un conjunto de datos de diálogo multimodal de múltiples turnos. Este conjunto de datos se genera de manera colaborativa mediante reglas diseñadas deliberadamente y con la asistencia de GPT, presentando fuertes correlaciones entre preguntas, entre preguntas e imágenes, y entre diferentes regiones de la imagen; alineándose así más estrechamente con escenarios del mundo real. MMDiag sirve como un sólido punto de referencia para el aprendizaje de diálogos multimodales de múltiples turnos y plantea mayores desafíos a las capacidades de fundamentación y razonamiento de los MLLMs. Además, inspirados por el procesamiento visual humano, presentamos DiagNote, un MLLM equipado con capacidades de fundamentación y razonamiento multimodal. DiagNote consta de dos módulos (Deliberate y Gaze) que interactúan entre sí para realizar, respectivamente, cadenas de pensamiento (Chain-of-Thought) y anotaciones a lo largo de diálogos de múltiples turnos. Demostramos empíricamente las ventajas de DiagNote tanto en la fundamentación como en el procesamiento conjunto y el razonamiento con información visual y lingüística en comparación con los MLLMs existentes.
English
Multimodal large language models (MLLMs), built on large-scale pre-trained
vision towers and language models, have shown great capabilities in multimodal
understanding. However, most existing MLLMs are trained on single-turn vision
question-answering tasks, which do not accurately reflect real-world human
conversations. In this paper, we introduce MMDiag, a multi-turn multimodal
dialogue dataset. This dataset is collaboratively generated through
deliberately designed rules and GPT assistance, featuring strong correlations
between questions, between questions and images, and among different image
regions; thus aligning more closely with real-world scenarios. MMDiag serves as
a strong benchmark for multi-turn multimodal dialogue learning and brings more
challenges to the grounding and reasoning capabilities of MLLMs. Further,
inspired by human vision processing, we present DiagNote, an MLLM equipped with
multimodal grounding and reasoning capabilities. DiagNote consists of two
modules (Deliberate and Gaze) interacting with each other to perform
Chain-of-Thought and annotations respectively, throughout multi-turn dialogues.
We empirically demonstrate the advantages of DiagNote in both grounding and
jointly processing and reasoning with vision and language information over
existing MLLMs.Summary
AI-Generated Summary