SEED-Bench: Оценка мультимодальных языковых моделей с использованием генеративного понимания
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension
July 30, 2023
Авторы: Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan
cs.AI
Аннотация
На основе мощных больших языковых моделей (LLM) недавние генеративные мультимодальные большие языковые модели (MLLM) стали ключевой областью исследований, демонстрируя выдающиеся способности как в понимании, так и в генерации. В данной работе мы рассматриваем оценку генеративного понимания в MLLM как предварительный шаг к всесторонней оценке генеративных моделей, представляя бенчмарк под названием SEED-Bench. SEED-Bench включает 19 тысяч вопросов с множественным выбором, снабженных точными аннотациями, созданными людьми (в 6 раз больше, чем в существующих бенчмарках), и охватывает 12 оценочных измерений, включая понимание как изображений, так и видео. Мы разработали продвинутый конвейер для генерации вопросов с множественным выбором, которые нацелены на конкретные оценочные измерения, интегрируя как автоматическую фильтрацию, так и процессы ручной проверки. Вопросы с множественным выбором и эталонными вариантами ответов, основанными на аннотациях людей, позволяют проводить объективную и эффективную оценку производительности моделей, устраняя необходимость вмешательства человека или GPT в процессе оценки. Мы также оцениваем производительность 18 моделей по всем 12 измерениям, охватывая как пространственное, так и временное понимание. Выявляя ограничения существующих MLLM через результаты оценки, мы стремимся к тому, чтобы SEED-Bench предоставил ценные инсайты для мотивации будущих исследований. Мы запустим и будем постоянно поддерживать рейтинговую таблицу, чтобы предоставить сообществу платформу для оценки и исследования возможностей моделей.
English
Based on powerful Large Language Models (LLMs), recent generative Multimodal
Large Language Models (MLLMs) have gained prominence as a pivotal research
area, exhibiting remarkable capability for both comprehension and generation.
In this work, we address the evaluation of generative comprehension in MLLMs as
a preliminary step towards a comprehensive assessment of generative models, by
introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple
choice questions with accurate human annotations (x 6 larger than existing
benchmarks), which spans 12 evaluation dimensions including the comprehension
of both the image and video modality. We develop an advanced pipeline for
generating multiple-choice questions that target specific evaluation
dimensions, integrating both automatic filtering and manual verification
processes. Multiple-choice questions with groundtruth options derived from
human annotation enables an objective and efficient assessment of model
performance, eliminating the need for human or GPT intervention during
evaluation. We further evaluate the performance of 18 models across all 12
dimensions, covering both the spatial and temporal understanding. By revealing
the limitations of existing MLLMs through evaluation results, we aim for
SEED-Bench to provide insights for motivating future research. We will launch
and consistently maintain a leaderboard to provide a platform for the community
to assess and investigate model capability.