SEED-Bench-2-Plus: Benchmarking von multimodalen großen Sprachmodellen mit textreicher visueller Verständnisfähigkeit
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension
April 25, 2024
Autoren: Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, Ying Shan
cs.AI
Zusammenfassung
Das Verstehen von textreichem visuellem Inhalt ist entscheidend für die praktische Anwendung von Multimodalen Großen Sprachmodellen (MLLMs), da textreiche Szenarien in der realen Welt allgegenwärtig sind, die durch umfangreiche Texte innerhalb von Bildern gekennzeichnet sind. In letzter Zeit hat das Aufkommen von MLLMs mit beeindruckender Vielseitigkeit die Messlatte für das, was wir von MLLMs erwarten können, angehoben. Ihre Kompetenz in textreichen Szenarien wurde jedoch bisher nicht umfassend und objektiv bewertet, da aktuelle MLLM-Benchmarks hauptsächlich auf die Bewertung der allgemeinen visuellen Verständnisfähigkeit abzielen. In dieser Arbeit stellen wir SEED-Bench-2-Plus vor, einen Benchmark, der speziell für die Bewertung des textreichen visuellen Verständnisses von MLLMs entwickelt wurde. Unser Benchmark umfasst 2,3K Multiple-Choice-Fragen mit präzisen menschlichen Annotationen, die drei große Kategorien abdecken: Diagramme, Karten und Webseiten, von denen jede ein breites Spektrum an textreichen Szenarien in der realen Welt abdeckt. Aufgrund ihrer inhärenten Komplexität und Vielfalt simulieren diese Kategorien effektiv textreiche Umgebungen in der realen Welt. Wir führen eine gründliche Evaluation durch, an der 34 prominente MLLMs beteiligt sind (einschließlich GPT-4V, Gemini-Pro-Vision und Claude-3-Opus), und betonen die aktuellen Einschränkungen von MLLMs im textreichen visuellen Verständnis. Wir hoffen, dass unsere Arbeit eine wertvolle Ergänzung zu bestehenden MLLM-Benchmarks darstellen kann, indem sie aufschlussreiche Beobachtungen liefert und weitere Forschung im Bereich des textreichen visuellen Verständnisses mit MLLMs anregt. Der Datensatz und der Evaluierungscode sind unter https://github.com/AILab-CVC/SEED-Bench abrufbar.
English
Comprehending text-rich visual content is paramount for the practical
application of Multimodal Large Language Models (MLLMs), since text-rich
scenarios are ubiquitous in the real world, which are characterized by the
presence of extensive texts embedded within images. Recently, the advent of
MLLMs with impressive versatility has raised the bar for what we can expect
from MLLMs. However, their proficiency in text-rich scenarios has yet to be
comprehensively and objectively assessed, since current MLLM benchmarks
primarily focus on evaluating general visual comprehension. In this work, we
introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating
text-rich visual comprehension of MLLMs. Our benchmark comprises 2.3K
multiple-choice questions with precise human annotations, spanning three broad
categories: Charts, Maps, and Webs, each of which covers a wide spectrum of
text-rich scenarios in the real world. These categories, due to their inherent
complexity and diversity, effectively simulate real-world text-rich
environments. We further conduct a thorough evaluation involving 34 prominent
MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the
current limitations of MLLMs in text-rich visual comprehension. We hope that
our work can serve as a valuable addition to existing MLLM benchmarks,
providing insightful observations and inspiring further research in the area of
text-rich visual comprehension with MLLMs. The dataset and evaluation code can
be accessed at https://github.com/AILab-CVC/SEED-Bench.Summary
AI-Generated Summary