SEED-Bench-2-Plus : Évaluation des modèles de langage multimodaux de grande échelle avec une compréhension visuelle riche en texte
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension
April 25, 2024
papers.authors: Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, Ying Shan
cs.AI
papers.abstract
Comprendre le contenu visuel riche en texte est primordial pour l'application pratique des Modèles de Langage Multimodaux de Grande Taille (MLLMs), car les scénarios riches en texte sont omniprésents dans le monde réel, caractérisés par la présence de textes étendus intégrés dans des images. Récemment, l'avènement des MLLMs dotés d'une polyvalence impressionnante a élevé les attentes quant à leurs capacités. Cependant, leur compétence dans les scénarios riches en texte n'a pas encore été évaluée de manière exhaustive et objective, car les benchmarks actuels des MLLMs se concentrent principalement sur l'évaluation de la compréhension visuelle générale. Dans ce travail, nous présentons SEED-Bench-2-Plus, un benchmark spécifiquement conçu pour évaluer la compréhension visuelle riche en texte des MLLMs. Notre benchmark comprend 2,3K questions à choix multiples avec des annotations humaines précises, couvrant trois grandes catégories : Graphiques, Cartes et Pages Web, chacune englobant un large éventail de scénarios riches en texte dans le monde réel. Ces catégories, en raison de leur complexité et diversité inhérentes, simulent efficacement des environnements réels riches en texte. Nous menons ensuite une évaluation approfondie impliquant 34 MLLMs de premier plan (y compris GPT-4V, Gemini-Pro-Vision et Claude-3-Opus) et mettons en lumière les limitations actuelles des MLLMs dans la compréhension visuelle riche en texte. Nous espérons que notre travail pourra servir de complément précieux aux benchmarks existants des MLLMs, offrant des observations perspicaces et inspirant des recherches supplémentaires dans le domaine de la compréhension visuelle riche en texte avec les MLLMs. Le jeu de données et le code d'évaluation sont accessibles à l'adresse suivante : https://github.com/AILab-CVC/SEED-Bench.
English
Comprehending text-rich visual content is paramount for the practical
application of Multimodal Large Language Models (MLLMs), since text-rich
scenarios are ubiquitous in the real world, which are characterized by the
presence of extensive texts embedded within images. Recently, the advent of
MLLMs with impressive versatility has raised the bar for what we can expect
from MLLMs. However, their proficiency in text-rich scenarios has yet to be
comprehensively and objectively assessed, since current MLLM benchmarks
primarily focus on evaluating general visual comprehension. In this work, we
introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating
text-rich visual comprehension of MLLMs. Our benchmark comprises 2.3K
multiple-choice questions with precise human annotations, spanning three broad
categories: Charts, Maps, and Webs, each of which covers a wide spectrum of
text-rich scenarios in the real world. These categories, due to their inherent
complexity and diversity, effectively simulate real-world text-rich
environments. We further conduct a thorough evaluation involving 34 prominent
MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the
current limitations of MLLMs in text-rich visual comprehension. We hope that
our work can serve as a valuable addition to existing MLLM benchmarks,
providing insightful observations and inspiring further research in the area of
text-rich visual comprehension with MLLMs. The dataset and evaluation code can
be accessed at https://github.com/AILab-CVC/SEED-Bench.