MMDU: Многораундовый многокартинный набор данных для понимания диалогов и настройки инструкций для LVLM.MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and
Instruction-Tuning Dataset for LVLMs
Генерация естественных и содержательных ответов для взаимодействия с мультимодальными человеческими входами является фундаментальной способностью моделей больших видео-языков (LVLMs). В настоящее время открытые LVLMs демонстрируют многообещающую производительность в упрощенных сценариях, таких как ввод одного оборота и одного изображения, однако они не справляются с реальными сценариями разговоров, такими как выполнение инструкций в длинной истории контекста с многократными оборотами и изображениями. Существующие бенчмарки LVLMs в основном сосредоточены на вопросах с одним вариантом ответа или кратких ответах, которые недостаточно оценивают возможности LVLMs в приложениях реального взаимодействия человека с ИИ. Поэтому мы представляем MMDU, комплексный бенчмарк, и MMDU-45k, масштабный набор данных для настройки инструкций, разработанный для оценки и улучшения способностей LVLMs в многократных разговорах с многократными изображениями. Мы используем алгоритм кластеризации для поиска соответствующих изображений и текстовых описаний из открытой Википедии и создаем пары вопрос-ответ с помощью человеческих аннотаторов с участием модели GPT-4o. MMDU имеет максимум 18 тыс. токенов изображения+текста, 20 изображений и 27 оборотов, что как минимум в 5 раз длиннее предыдущих бенчмарков и представляет вызов для текущих LVLMs. Наш анализ 15 представительных LVLMs с использованием MMDU показывает, что открытые LVLMs отстают от закрытых аналогов из-за ограниченных данных настройки разговорных инструкций. Мы демонстрируем, что точная настройка открытых LVLMs на MMDU-45k значительно уменьшает этот разрыв, генерируя более длинные и точные разговоры и улучшая результаты на MMDU и существующих бенчмарках (MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%). Наши результаты открывают путь к устранению разрыва между текущими моделями LVLM и требованиями реальных приложений. Этот проект доступен по ссылке https://github.com/Liuziyu77/MMDU.