SEED-Bench: Оценка мультимодальных языковых моделей с использованием генеративного понимания

Аннотация

На основе мощных больших языковых моделей (LLM) недавние генеративные мультимодальные большие языковые модели (MLLM) стали ключевой областью исследований, демонстрируя выдающиеся способности как в понимании, так и в генерации. В данной работе мы рассматриваем оценку генеративного понимания в MLLM как предварительный шаг к всесторонней оценке генеративных моделей, представляя бенчмарк под названием SEED-Bench. SEED-Bench включает 19 тысяч вопросов с множественным выбором, снабженных точными аннотациями, созданными людьми (в 6 раз больше, чем в существующих бенчмарках), и охватывает 12 оценочных измерений, включая понимание как изображений, так и видео. Мы разработали продвинутый конвейер для генерации вопросов с множественным выбором, которые нацелены на конкретные оценочные измерения, интегрируя как автоматическую фильтрацию, так и процессы ручной проверки. Вопросы с множественным выбором и эталонными вариантами ответов, основанными на аннотациях людей, позволяют проводить объективную и эффективную оценку производительности моделей, устраняя необходимость вмешательства человека или GPT в процессе оценки. Мы также оцениваем производительность 18 моделей по всем 12 измерениям, охватывая как пространственное, так и временное понимание. Выявляя ограничения существующих MLLM через результаты оценки, мы стремимся к тому, чтобы SEED-Bench предоставил ценные инсайты для мотивации будущих исследований. Мы запустим и будем постоянно поддерживать рейтинговую таблицу, чтобы предоставить сообществу платформу для оценки и исследования возможностей моделей.

English

Based on powerful Large Language Models (LLMs), recent generative Multimodal Large Language Models (MLLMs) have gained prominence as a pivotal research area, exhibiting remarkable capability for both comprehension and generation. In this work, we address the evaluation of generative comprehension in MLLMs as a preliminary step towards a comprehensive assessment of generative models, by introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple choice questions with accurate human annotations (x 6 larger than existing benchmarks), which spans 12 evaluation dimensions including the comprehension of both the image and video modality. We develop an advanced pipeline for generating multiple-choice questions that target specific evaluation dimensions, integrating both automatic filtering and manual verification processes. Multiple-choice questions with groundtruth options derived from human annotation enables an objective and efficient assessment of model performance, eliminating the need for human or GPT intervention during evaluation. We further evaluate the performance of 18 models across all 12 dimensions, covering both the spatial and temporal understanding. By revealing the limitations of existing MLLMs through evaluation results, we aim for SEED-Bench to provide insights for motivating future research. We will launch and consistently maintain a leaderboard to provide a platform for the community to assess and investigate model capability.

SEED-Bench: Оценка мультимодальных языковых моделей с использованием генеративного понимания

SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

Аннотация

Support