SEED-Bench-2-Plus: Valutazione dei Modelli Linguistici Multimodali di Grande Scala con Comprensione Visiva Ricca di Testo
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension
April 25, 2024
Autori: Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, Ying Shan
cs.AI
Abstract
Comprendere contenuti visivi ricchi di testo è fondamentale per l'applicazione pratica dei Modelli Linguistici Multimodali di Grande Dimensione (MLLM), poiché scenari ricchi di testo sono ubiquitari nel mondo reale, caratterizzati dalla presenza di testi estesi incorporati all'interno di immagini. Recentemente, l'avvento di MLLM con un'impressionante versatilità ha innalzato il livello di ciò che possiamo aspettarci da questi modelli. Tuttavia, la loro competenza in scenari ricchi di testo deve ancora essere valutata in modo completo e obiettivo, poiché gli attuali benchmark per MLLM si concentrano principalmente sulla valutazione della comprensione visiva generale. In questo lavoro, introduciamo SEED-Bench-2-Plus, un benchmark specificamente progettato per valutare la comprensione visiva di contenuti ricchi di testo nei MLLM. Il nostro benchmark comprende 2.3K domande a scelta multipla con annotazioni umane precise, che coprono tre ampie categorie: Grafici, Mappe e Pagine Web, ognuna delle quali abbraccia un ampio spettro di scenari ricchi di testo nel mondo reale. Queste categorie, grazie alla loro intrinseca complessità e diversità, simulano efficacemente ambienti reali ricchi di testo. Inoltre, conduciamo una valutazione approfondita che coinvolge 34 importanti MLLM (inclusi GPT-4V, Gemini-Pro-Vision e Claude-3-Opus) e sottolineiamo le attuali limitazioni dei MLLM nella comprensione visiva di contenuti ricchi di testo. Speriamo che il nostro lavoro possa rappresentare un'aggiunta preziosa agli attuali benchmark per MLLM, fornendo osservazioni approfondite e ispirando ulteriori ricerche nel campo della comprensione visiva di contenuti ricchi di testo con MLLM. Il dataset e il codice di valutazione sono accessibili all'indirizzo https://github.com/AILab-CVC/SEED-Bench.
English
Comprehending text-rich visual content is paramount for the practical
application of Multimodal Large Language Models (MLLMs), since text-rich
scenarios are ubiquitous in the real world, which are characterized by the
presence of extensive texts embedded within images. Recently, the advent of
MLLMs with impressive versatility has raised the bar for what we can expect
from MLLMs. However, their proficiency in text-rich scenarios has yet to be
comprehensively and objectively assessed, since current MLLM benchmarks
primarily focus on evaluating general visual comprehension. In this work, we
introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating
text-rich visual comprehension of MLLMs. Our benchmark comprises 2.3K
multiple-choice questions with precise human annotations, spanning three broad
categories: Charts, Maps, and Webs, each of which covers a wide spectrum of
text-rich scenarios in the real world. These categories, due to their inherent
complexity and diversity, effectively simulate real-world text-rich
environments. We further conduct a thorough evaluation involving 34 prominent
MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the
current limitations of MLLMs in text-rich visual comprehension. We hope that
our work can serve as a valuable addition to existing MLLM benchmarks,
providing insightful observations and inspiring further research in the area of
text-rich visual comprehension with MLLMs. The dataset and evaluation code can
be accessed at https://github.com/AILab-CVC/SEED-Bench.