ChatPaper.aiChatPaper

MIBench: Оценка мультимодальных больших языковых моделей на нескольких изображениях

MIBench: Evaluating Multimodal Large Language Models over Multiple Images

July 21, 2024
Авторы: Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI

Аннотация

Основанные на мощи LLM, многочисленные мультимодальные крупные языковые модели (MLLM) недавно достигли выдающихся результатов на различных задачах видео-языкового восприятия на множестве платформ. Однако большинство существующих MLLM и платформ в основном сосредоточены на сценариях ввода одного изображения, оставляя без должного внимания производительность MLLM при работе с реалистичными сценариями нескольких изображений. Хотя несколько платформ учитывают несколько изображений, их измерения и выборки для оценки крайне ограничены. Поэтому в данной статье мы предлагаем новую платформу MIBench для всесторонней оценки тонких способностей MLLM в сценариях с несколькими изображениями. Конкретно, MIBench категоризирует способности к работе с несколькими изображениями на три сценария: мультимодальные инструкции с несколькими изображениями (MII), поиск мультимодальных знаний (MKS) и мультимодальное обучение в контексте (MIC), и создает 13 задач с общим числом 13 тыс. аннотированных образцов. При создании данных для MII и MKS мы извлекаем правильные варианты из ручных аннотаций и создаем сложных отвлекающих элементов для получения вопросов с выбором ответа. Для MIC, чтобы обеспечить глубокую оценку, мы устанавливаем четыре подзадачи и преобразуем исходные наборы данных в форматы обучения в контексте. Мы оцениваем несколько открытых и закрытых исходных MLLM на предложенной платформе MIBench. Результаты показывают, что хотя текущие модели отлично справляются с задачами на одиночных изображениях, они проявляют значительные недостатки при работе с несколькими изображениями, такие как запутанное тонкое восприятие, ограниченное мультимодальное рассуждение и нестабильное обучение в контексте. Аннотированные данные в MIBench доступны по ссылке https://huggingface.co/datasets/StarBottle/MIBench.
English
Built on the power of LLMs, numerous multimodal large language models (MLLMs) have recently achieved remarkable performance on various vision-language tasks across multiple benchmarks. However, most existing MLLMs and benchmarks primarily focus on single-image input scenarios, leaving the performance of MLLMs when handling realistic multiple images remain underexplored. Although a few benchmarks consider multiple images, their evaluation dimensions and samples are very limited. Therefore, in this paper, we propose a new benchmark MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in multi-image scenarios. Specifically, MIBench categorizes the multi-image abilities into three scenarios: multi-image instruction (MII), multimodal knowledge-seeking (MKS) and multimodal in-context learning (MIC), and constructs 13 tasks with a total of 13K annotated samples. During data construction, for MII and MKS, we extract correct options from manual annotations and create challenging distractors to obtain multiple-choice questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and transform the original datasets into in-context learning formats. We evaluate several open-source MLLMs and close-source MLLMs on the proposed MIBench. The results reveal that although current models excel in single-image tasks, they exhibit significant shortcomings when faced with multi-image inputs, such as confused fine-grained perception, limited multi-image reasoning, and unstable in-context learning. The annotated data in MIBench is available at https://huggingface.co/datasets/StarBottle/MIBench.

Summary

AI-Generated Summary

PDF103November 28, 2024