MIBench: Оценка мультимодальных больших языковых моделей на нескольких изображениях

Аннотация

Основанные на мощи LLM, многочисленные мультимодальные крупные языковые модели (MLLM) недавно достигли выдающихся результатов на различных задачах видео-языкового восприятия на множестве платформ. Однако большинство существующих MLLM и платформ в основном сосредоточены на сценариях ввода одного изображения, оставляя без должного внимания производительность MLLM при работе с реалистичными сценариями нескольких изображений. Хотя несколько платформ учитывают несколько изображений, их измерения и выборки для оценки крайне ограничены. Поэтому в данной статье мы предлагаем новую платформу MIBench для всесторонней оценки тонких способностей MLLM в сценариях с несколькими изображениями. Конкретно, MIBench категоризирует способности к работе с несколькими изображениями на три сценария: мультимодальные инструкции с несколькими изображениями (MII), поиск мультимодальных знаний (MKS) и мультимодальное обучение в контексте (MIC), и создает 13 задач с общим числом 13 тыс. аннотированных образцов. При создании данных для MII и MKS мы извлекаем правильные варианты из ручных аннотаций и создаем сложных отвлекающих элементов для получения вопросов с выбором ответа. Для MIC, чтобы обеспечить глубокую оценку, мы устанавливаем четыре подзадачи и преобразуем исходные наборы данных в форматы обучения в контексте. Мы оцениваем несколько открытых и закрытых исходных MLLM на предложенной платформе MIBench. Результаты показывают, что хотя текущие модели отлично справляются с задачами на одиночных изображениях, они проявляют значительные недостатки при работе с несколькими изображениями, такие как запутанное тонкое восприятие, ограниченное мультимодальное рассуждение и нестабильное обучение в контексте. Аннотированные данные в MIBench доступны по ссылке https://huggingface.co/datasets/StarBottle/MIBench.

English

Built on the power of LLMs, numerous multimodal large language models (MLLMs) have recently achieved remarkable performance on various vision-language tasks across multiple benchmarks. However, most existing MLLMs and benchmarks primarily focus on single-image input scenarios, leaving the performance of MLLMs when handling realistic multiple images remain underexplored. Although a few benchmarks consider multiple images, their evaluation dimensions and samples are very limited. Therefore, in this paper, we propose a new benchmark MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in multi-image scenarios. Specifically, MIBench categorizes the multi-image abilities into three scenarios: multi-image instruction (MII), multimodal knowledge-seeking (MKS) and multimodal in-context learning (MIC), and constructs 13 tasks with a total of 13K annotated samples. During data construction, for MII and MKS, we extract correct options from manual annotations and create challenging distractors to obtain multiple-choice questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and transform the original datasets into in-context learning formats. We evaluate several open-source MLLMs and close-source MLLMs on the proposed MIBench. The results reveal that although current models excel in single-image tasks, they exhibit significant shortcomings when faced with multi-image inputs, such as confused fine-grained perception, limited multi-image reasoning, and unstable in-context learning. The annotated data in MIBench is available at https://huggingface.co/datasets/StarBottle/MIBench.

MIBench: Оценка мультимодальных больших языковых моделей на нескольких изображениях

MIBench: Evaluating Multimodal Large Language Models over Multiple Images

Аннотация

Support