ChatPaper.aiChatPaper

MMIE: Массивный мультимодальный интерлированный бенчмарк по пониманию для крупных моделей видео-язык.

MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

October 14, 2024
Авторы: Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao
cs.AI

Аннотация

Переплетенное мультимодальное понимание и генерация, позволяющие моделям производить и интерпретировать как изображения, так и текст в произвольной последовательности, стали ключевой областью в мультимодальном обучении. Несмотря на значительные достижения, оценка этой способности остается недостаточной. Существующие бенчмарки страдают от ограничений в масштабе данных, области применения и глубины оценки, а текущие метрики оценки часто являются дорогостоящими или предвзятыми, лишены надежности для практического применения. Для решения этих проблем мы представляем MMIE, крупномасштабный знаниевый бенчмарк для оценки переплетенного мультимодального понимания и генерации в моделях больших видео-языковых моделей (LVLMs). MMIE включает в себя 20 тыс. тщательно подобранных мультимодальных запросов, охватывающих 3 категории, 12 областей и 102 подобласти, включая математику, программирование, физику, литературу, здравоохранение и искусство. Он поддерживает как переплетенные входы, так и выходы, предлагая смесь форматов вопросов с выбором из нескольких вариантов ответа и открытым ответом для оценки разнообразных компетенций. Более того, мы предлагаем надежную автоматизированную метрику оценки, используя модель оценки, настроенную на основе данных с аннотациями человека и систематические критерии оценки, направленные на уменьшение предвзятости и улучшение точности оценки. Обширные эксперименты демонстрируют эффективность нашего бенчмарка и метрик в обеспечении всесторонней оценки переплетенных LVLMs. Конкретно, мы оцениваем восемь LVLMs, показывая, что даже лучшие модели имеют значительный потенциал для улучшения, с большинством достигающих лишь умеренных результатов. Мы уверены, что MMIE стимулирует дальнейшие прогрессивные изменения в развитии переплетенных LVLMs. Мы публично выпустили наш бенчмарк и код на https://mmie-bench.github.io/.
English
Interleaved multimodal comprehension and generation, enabling models to produce and interpret both images and text in arbitrary sequences, have become a pivotal area in multimodal learning. Despite significant advancements, the evaluation of this capability remains insufficient. Existing benchmarks suffer from limitations in data scale, scope, and evaluation depth, while current evaluation metrics are often costly or biased, lacking in reliability for practical applications. To address these challenges, we introduce MMIE, a large-scale knowledge-intensive benchmark for evaluating interleaved multimodal comprehension and generation in Large Vision-Language Models (LVLMs). MMIE comprises 20K meticulously curated multimodal queries, spanning 3 categories, 12 fields, and 102 subfields, including mathematics, coding, physics, literature, health, and arts. It supports both interleaved inputs and outputs, offering a mix of multiple-choice and open-ended question formats to evaluate diverse competencies. Moreover, we propose a reliable automated evaluation metric, leveraging a scoring model fine-tuned with human-annotated data and systematic evaluation criteria, aimed at reducing bias and improving evaluation accuracy. Extensive experiments demonstrate the effectiveness of our benchmark and metrics in providing a comprehensive evaluation of interleaved LVLMs. Specifically, we evaluate eight LVLMs, revealing that even the best models show significant room for improvement, with most achieving only moderate results. We believe MMIE will drive further advancements in the development of interleaved LVLMs. We publicly release our benchmark and code in https://mmie-bench.github.io/.

Summary

AI-Generated Summary

PDF534November 16, 2024