ChatPaper.aiChatPaper

SEED-Bench-2-Plus: Het benchmarken van multimodale grote taalmodellen met tekstrijke visuele begripsvaardigheid

SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

April 25, 2024
Auteurs: Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, Ying Shan
cs.AI

Samenvatting

Het begrijpen van visuele inhoud met veel tekst is van cruciaal belang voor de praktische toepassing van Multimodale Grote Taalmodellen (MLLMs), aangezien scenario's met veel tekst alomtegenwoordig zijn in de echte wereld, die worden gekenmerkt door de aanwezigheid van uitgebreide teksten die in afbeeldingen zijn ingebed. Recentelijk heeft de opkomst van MLLMs met indrukwekkende veelzijdigheid de lat hoger gelegd voor wat we van MLLMs kunnen verwachten. Hun vaardigheid in scenario's met veel tekst moet echter nog uitgebreid en objectief worden beoordeeld, aangezien de huidige MLLM-benchmarks zich voornamelijk richten op het evalueren van algemeen visueel begrip. In dit werk introduceren we SEED-Bench-2-Plus, een benchmark die specifiek is ontworpen voor het evalueren van visueel begrip van MLLMs in tekstrijke scenario's. Onze benchmark bestaat uit 2.3K meerkeuzevragen met nauwkeurige menselijke annotaties, die drie brede categorieën omvatten: Grafieken, Kaarten en Webs, die elk een breed scala aan tekstrijke scenario's in de echte wereld bestrijken. Deze categorieën, vanwege hun inherente complexiteit en diversiteit, simuleren effectief real-world tekstrijke omgevingen. We voeren verder een grondige evaluatie uit met 34 prominente MLLMs (inclusief GPT-4V, Gemini-Pro-Vision en Claude-3-Opus) en benadrukken de huidige beperkingen van MLLMs in het begrijpen van visuele inhoud met veel tekst. We hopen dat ons werk kan dienen als een waardevolle aanvulling op bestaande MLLM-benchmarks, die inzichtelijke observaties biedt en verder onderzoek inspireert op het gebied van visueel begrip van tekstrijke inhoud met MLLMs. De dataset en evaluatiecode zijn toegankelijk op https://github.com/AILab-CVC/SEED-Bench.
English
Comprehending text-rich visual content is paramount for the practical application of Multimodal Large Language Models (MLLMs), since text-rich scenarios are ubiquitous in the real world, which are characterized by the presence of extensive texts embedded within images. Recently, the advent of MLLMs with impressive versatility has raised the bar for what we can expect from MLLMs. However, their proficiency in text-rich scenarios has yet to be comprehensively and objectively assessed, since current MLLM benchmarks primarily focus on evaluating general visual comprehension. In this work, we introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating text-rich visual comprehension of MLLMs. Our benchmark comprises 2.3K multiple-choice questions with precise human annotations, spanning three broad categories: Charts, Maps, and Webs, each of which covers a wide spectrum of text-rich scenarios in the real world. These categories, due to their inherent complexity and diversity, effectively simulate real-world text-rich environments. We further conduct a thorough evaluation involving 34 prominent MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the current limitations of MLLMs in text-rich visual comprehension. We hope that our work can serve as a valuable addition to existing MLLM benchmarks, providing insightful observations and inspiring further research in the area of text-rich visual comprehension with MLLMs. The dataset and evaluation code can be accessed at https://github.com/AILab-CVC/SEED-Bench.
PDF101February 7, 2026