SEED-Bench-2-Plus: Сравнение производительности мультимодальных крупных языковых моделей с текстово-визуальным пониманием.
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension
April 25, 2024
Авторы: Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, Ying Shan
cs.AI
Аннотация
Понимание визуального контента, богатого текстом, является важным для практического применения Мультимодальных Больших Языковых Моделей (МБЯМ), поскольку сценарии с богатым текстом широко распространены в реальном мире, характеризуемые наличием обширных текстов, встроенных в изображения. Недавно появление МБЯМ с впечатляющей универсальностью повысило планку ожиданий от МБЯМ. Однако их профессионализм в сценариях с богатым текстом еще не был полностью и объективно оценен, поскольку текущие бенчмарки МБЯМ в основном сосредоточены на оценке общего визуального понимания. В данной работе мы представляем SEED-Bench-2-Plus, бенчмарк, специально разработанный для оценки визуального понимания текста у МБЯМ. Наш бенчмарк включает 2,3 тыс. вопросов с множественным выбором с точными аннотациями людей, охватывающих три широкие категории: Графики, Карты и Сети, каждая из которых охватывает широкий спектр сценариев с богатым текстом в реальном мире. Эти категории, благодаря своей врожденной сложности и разнообразию, эффективно моделируют среды с богатым текстом в реальном мире. Мы также проводим тщательную оценку, включающую 34 ведущих МБЯМ (включая GPT-4V, Gemini-Pro-Vision и Claude-3-Opus) и акцентируем на текущих ограничениях МБЯМ в визуальном понимании текста. Мы надеемся, что наша работа может стать ценным дополнением к существующим бенчмаркам МБЯМ, предоставляя содержательные наблюдения и вдохновляя на дальнейшие исследования в области визуального понимания с богатым текстом при помощи МБЯМ. Набор данных и код оценки доступны по ссылке https://github.com/AILab-CVC/SEED-Bench.
English
Comprehending text-rich visual content is paramount for the practical
application of Multimodal Large Language Models (MLLMs), since text-rich
scenarios are ubiquitous in the real world, which are characterized by the
presence of extensive texts embedded within images. Recently, the advent of
MLLMs with impressive versatility has raised the bar for what we can expect
from MLLMs. However, their proficiency in text-rich scenarios has yet to be
comprehensively and objectively assessed, since current MLLM benchmarks
primarily focus on evaluating general visual comprehension. In this work, we
introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating
text-rich visual comprehension of MLLMs. Our benchmark comprises 2.3K
multiple-choice questions with precise human annotations, spanning three broad
categories: Charts, Maps, and Webs, each of which covers a wide spectrum of
text-rich scenarios in the real world. These categories, due to their inherent
complexity and diversity, effectively simulate real-world text-rich
environments. We further conduct a thorough evaluation involving 34 prominent
MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the
current limitations of MLLMs in text-rich visual comprehension. We hope that
our work can serve as a valuable addition to existing MLLM benchmarks,
providing insightful observations and inspiring further research in the area of
text-rich visual comprehension with MLLMs. The dataset and evaluation code can
be accessed at https://github.com/AILab-CVC/SEED-Bench.Summary
AI-Generated Summary