SEED-Bench-2-Plus: Сравнение производительности мультимодальных крупных языковых моделей с текстово-визуальным пониманием.

Аннотация

Понимание визуального контента, богатого текстом, является важным для практического применения Мультимодальных Больших Языковых Моделей (МБЯМ), поскольку сценарии с богатым текстом широко распространены в реальном мире, характеризуемые наличием обширных текстов, встроенных в изображения. Недавно появление МБЯМ с впечатляющей универсальностью повысило планку ожиданий от МБЯМ. Однако их профессионализм в сценариях с богатым текстом еще не был полностью и объективно оценен, поскольку текущие бенчмарки МБЯМ в основном сосредоточены на оценке общего визуального понимания. В данной работе мы представляем SEED-Bench-2-Plus, бенчмарк, специально разработанный для оценки визуального понимания текста у МБЯМ. Наш бенчмарк включает 2,3 тыс. вопросов с множественным выбором с точными аннотациями людей, охватывающих три широкие категории: Графики, Карты и Сети, каждая из которых охватывает широкий спектр сценариев с богатым текстом в реальном мире. Эти категории, благодаря своей врожденной сложности и разнообразию, эффективно моделируют среды с богатым текстом в реальном мире. Мы также проводим тщательную оценку, включающую 34 ведущих МБЯМ (включая GPT-4V, Gemini-Pro-Vision и Claude-3-Opus) и акцентируем на текущих ограничениях МБЯМ в визуальном понимании текста. Мы надеемся, что наша работа может стать ценным дополнением к существующим бенчмаркам МБЯМ, предоставляя содержательные наблюдения и вдохновляя на дальнейшие исследования в области визуального понимания с богатым текстом при помощи МБЯМ. Набор данных и код оценки доступны по ссылке https://github.com/AILab-CVC/SEED-Bench.

English

Comprehending text-rich visual content is paramount for the practical application of Multimodal Large Language Models (MLLMs), since text-rich scenarios are ubiquitous in the real world, which are characterized by the presence of extensive texts embedded within images. Recently, the advent of MLLMs with impressive versatility has raised the bar for what we can expect from MLLMs. However, their proficiency in text-rich scenarios has yet to be comprehensively and objectively assessed, since current MLLM benchmarks primarily focus on evaluating general visual comprehension. In this work, we introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating text-rich visual comprehension of MLLMs. Our benchmark comprises 2.3K multiple-choice questions with precise human annotations, spanning three broad categories: Charts, Maps, and Webs, each of which covers a wide spectrum of text-rich scenarios in the real world. These categories, due to their inherent complexity and diversity, effectively simulate real-world text-rich environments. We further conduct a thorough evaluation involving 34 prominent MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the current limitations of MLLMs in text-rich visual comprehension. We hope that our work can serve as a valuable addition to existing MLLM benchmarks, providing insightful observations and inspiring further research in the area of text-rich visual comprehension with MLLMs. The dataset and evaluation code can be accessed at https://github.com/AILab-CVC/SEED-Bench.

SEED-Bench-2-Plus: Сравнение производительности мультимодальных крупных языковых моделей с текстово-визуальным пониманием.

SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

Аннотация

Support