MMIE: Benchmark de Compreensão Multimodal Maciço e Entrelaçado para Modelos de Visão e Linguagem de Grande Escala
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models
October 14, 2024
Autores: Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao
cs.AI
Resumo
A compreensão e geração multimodal entrelaçada, permitindo que os modelos produzam e interpretem tanto imagens quanto texto em sequências arbitrárias, tornaram-se uma área fundamental na aprendizagem multimodal. Apesar dos avanços significativos, a avaliação dessa capacidade ainda é insuficiente. Os benchmarks existentes sofrem de limitações em escala de dados, escopo e profundidade de avaliação, enquanto as métricas de avaliação atuais frequentemente são custosas ou tendenciosas, carecendo de confiabilidade para aplicações práticas. Para enfrentar esses desafios, apresentamos o MMIE, um benchmark intensivo em conhecimento em larga escala para avaliar a compreensão e geração multimodal entrelaçada em Modelos de Grande Escala de Visão e Linguagem (LVLMs). O MMIE é composto por 20 mil consultas multimodais meticulosamente selecionadas, abrangendo 3 categorias, 12 campos e 102 subcampos, incluindo matemática, programação, física, literatura, saúde e artes. Ele suporta tanto entradas quanto saídas entrelaçadas, oferecendo uma mistura de formatos de perguntas de múltipla escolha e abertas para avaliar competências diversas. Além disso, propomos uma métrica de avaliação automatizada confiável, aproveitando um modelo de pontuação ajustado com dados anotados por humanos e critérios de avaliação sistemáticos, com o objetivo de reduzir viés e melhorar a precisão da avaliação. Experimentos extensivos demonstram a eficácia de nosso benchmark e métricas em fornecer uma avaliação abrangente de LVLMs entrelaçados. Especificamente, avaliamos oito LVLMs, revelando que mesmo os melhores modelos mostram significativo espaço para melhoria, com a maioria alcançando apenas resultados moderados. Acreditamos que o MMIE impulsionará novos avanços no desenvolvimento de LVLMs entrelaçados. Disponibilizamos publicamente nosso benchmark e código em https://mmie-bench.github.io/.
English
Interleaved multimodal comprehension and generation, enabling models to
produce and interpret both images and text in arbitrary sequences, have become
a pivotal area in multimodal learning. Despite significant advancements, the
evaluation of this capability remains insufficient. Existing benchmarks suffer
from limitations in data scale, scope, and evaluation depth, while current
evaluation metrics are often costly or biased, lacking in reliability for
practical applications. To address these challenges, we introduce MMIE, a
large-scale knowledge-intensive benchmark for evaluating interleaved multimodal
comprehension and generation in Large Vision-Language Models (LVLMs). MMIE
comprises 20K meticulously curated multimodal queries, spanning 3 categories,
12 fields, and 102 subfields, including mathematics, coding, physics,
literature, health, and arts. It supports both interleaved inputs and outputs,
offering a mix of multiple-choice and open-ended question formats to evaluate
diverse competencies. Moreover, we propose a reliable automated evaluation
metric, leveraging a scoring model fine-tuned with human-annotated data and
systematic evaluation criteria, aimed at reducing bias and improving evaluation
accuracy. Extensive experiments demonstrate the effectiveness of our benchmark
and metrics in providing a comprehensive evaluation of interleaved LVLMs.
Specifically, we evaluate eight LVLMs, revealing that even the best models show
significant room for improvement, with most achieving only moderate results. We
believe MMIE will drive further advancements in the development of interleaved
LVLMs. We publicly release our benchmark and code in
https://mmie-bench.github.io/.Summary
AI-Generated Summary