ChatPaper.aiChatPaper

MMDU: Многораундовый многокартинный набор данных для понимания диалогов и настройки инструкций для LVLM.

MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

June 17, 2024
Авторы: Ziyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI

Аннотация

Генерация естественных и содержательных ответов для взаимодействия с мультимодальными человеческими входами является фундаментальной способностью моделей больших видео-языков (LVLMs). В настоящее время открытые LVLMs демонстрируют многообещающую производительность в упрощенных сценариях, таких как ввод одного оборота и одного изображения, однако они не справляются с реальными сценариями разговоров, такими как выполнение инструкций в длинной истории контекста с многократными оборотами и изображениями. Существующие бенчмарки LVLMs в основном сосредоточены на вопросах с одним вариантом ответа или кратких ответах, которые недостаточно оценивают возможности LVLMs в приложениях реального взаимодействия человека с ИИ. Поэтому мы представляем MMDU, комплексный бенчмарк, и MMDU-45k, масштабный набор данных для настройки инструкций, разработанный для оценки и улучшения способностей LVLMs в многократных разговорах с многократными изображениями. Мы используем алгоритм кластеризации для поиска соответствующих изображений и текстовых описаний из открытой Википедии и создаем пары вопрос-ответ с помощью человеческих аннотаторов с участием модели GPT-4o. MMDU имеет максимум 18 тыс. токенов изображения+текста, 20 изображений и 27 оборотов, что как минимум в 5 раз длиннее предыдущих бенчмарков и представляет вызов для текущих LVLMs. Наш анализ 15 представительных LVLMs с использованием MMDU показывает, что открытые LVLMs отстают от закрытых аналогов из-за ограниченных данных настройки разговорных инструкций. Мы демонстрируем, что точная настройка открытых LVLMs на MMDU-45k значительно уменьшает этот разрыв, генерируя более длинные и точные разговоры и улучшая результаты на MMDU и существующих бенчмарках (MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%). Наши результаты открывают путь к устранению разрыва между текущими моделями LVLM и требованиями реальных приложений. Этот проект доступен по ссылке https://github.com/Liuziyu77/MMDU.
English
Generating natural and meaningful responses to communicate with multi-modal human inputs is a fundamental capability of Large Vision-Language Models(LVLMs). While current open-source LVLMs demonstrate promising performance in simplified scenarios such as single-turn single-image input, they fall short in real-world conversation scenarios such as following instructions in a long context history with multi-turn and multi-images. Existing LVLM benchmarks primarily focus on single-choice questions or short-form responses, which do not adequately assess the capabilities of LVLMs in real-world human-AI interaction applications. Therefore, we introduce MMDU, a comprehensive benchmark, and MMDU-45k, a large-scale instruction tuning dataset, designed to evaluate and improve LVLMs' abilities in multi-turn and multi-image conversations. We employ the clustering algorithm to ffnd the relevant images and textual descriptions from the open-source Wikipedia and construct the question-answer pairs by human annotators with the assistance of the GPT-4o model. MMDU has a maximum of 18k image+text tokens, 20 images, and 27 turns, which is at least 5x longer than previous benchmarks and poses challenges to current LVLMs. Our in-depth analysis of 15 representative LVLMs using MMDU reveals that open-source LVLMs lag behind closed-source counterparts due to limited conversational instruction tuning data. We demonstrate that ffne-tuning open-source LVLMs on MMDU-45k signiffcantly address this gap, generating longer and more accurate conversations, and improving scores on MMDU and existing benchmarks (MMStar: +1.1%, MathVista: +1.5%, ChartQA:+1.2%). Our contributions pave the way for bridging the gap between current LVLM models and real-world application demands. This project is available at https://github.com/Liuziyu77/MMDU.

Summary

AI-Generated Summary

PDF646December 6, 2024