Делать заметки помогает сосредоточиться? В направлении многозадачного мультимодального обучения диалогов
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning
March 10, 2025
Авторы: Jiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLMs), построенные на основе масштабно предобученных визуальных и языковых моделей, продемонстрировали значительные возможности в мультимодальном понимании. Однако большинство существующих MLLMs обучаются на задачах одношагового визуального вопроса-ответа, что не точно отражает реальные человеческие диалоги. В данной работе мы представляем MMDiag — набор данных для многошагового мультимодального диалога. Этот набор данных совместно создан с использованием тщательно разработанных правил и помощи GPT, характеризуясь сильными корреляциями между вопросами, между вопросами и изображениями, а также между различными областями изображений, что более точно соответствует реальным сценариям. MMDiag служит надежным эталоном для обучения многошаговым мультимодальным диалогам и ставит дополнительные задачи перед способностями MLLMs к заземлению и рассуждению. Кроме того, вдохновленные человеческим зрительным восприятием, мы представляем DiagNote — MLLM, оснащенную возможностями мультимодального заземления и рассуждения. DiagNote состоит из двух модулей (Deliberate и Gaze), взаимодействующих друг с другом для выполнения цепочки рассуждений (Chain-of-Thought) и аннотаций соответственно в ходе многошаговых диалогов. Мы эмпирически демонстрируем преимущества DiagNote как в заземлении, так и в совместной обработке и рассуждении с использованием визуальной и языковой информации по сравнению с существующими MLLMs.
English
Multimodal large language models (MLLMs), built on large-scale pre-trained
vision towers and language models, have shown great capabilities in multimodal
understanding. However, most existing MLLMs are trained on single-turn vision
question-answering tasks, which do not accurately reflect real-world human
conversations. In this paper, we introduce MMDiag, a multi-turn multimodal
dialogue dataset. This dataset is collaboratively generated through
deliberately designed rules and GPT assistance, featuring strong correlations
between questions, between questions and images, and among different image
regions; thus aligning more closely with real-world scenarios. MMDiag serves as
a strong benchmark for multi-turn multimodal dialogue learning and brings more
challenges to the grounding and reasoning capabilities of MLLMs. Further,
inspired by human vision processing, we present DiagNote, an MLLM equipped with
multimodal grounding and reasoning capabilities. DiagNote consists of two
modules (Deliberate and Gaze) interacting with each other to perform
Chain-of-Thought and annotations respectively, throughout multi-turn dialogues.
We empirically demonstrate the advantages of DiagNote in both grounding and
jointly processing and reasoning with vision and language information over
existing MLLMs.Summary
AI-Generated Summary