SEED-Bench-2-Plus : Évaluation des modèles de langage multimodaux de grande échelle avec une compréhension visuelle riche en texte

papers.abstract

Comprendre le contenu visuel riche en texte est primordial pour l'application pratique des Modèles de Langage Multimodaux de Grande Taille (MLLMs), car les scénarios riches en texte sont omniprésents dans le monde réel, caractérisés par la présence de textes étendus intégrés dans des images. Récemment, l'avènement des MLLMs dotés d'une polyvalence impressionnante a élevé les attentes quant à leurs capacités. Cependant, leur compétence dans les scénarios riches en texte n'a pas encore été évaluée de manière exhaustive et objective, car les benchmarks actuels des MLLMs se concentrent principalement sur l'évaluation de la compréhension visuelle générale. Dans ce travail, nous présentons SEED-Bench-2-Plus, un benchmark spécifiquement conçu pour évaluer la compréhension visuelle riche en texte des MLLMs. Notre benchmark comprend 2,3K questions à choix multiples avec des annotations humaines précises, couvrant trois grandes catégories : Graphiques, Cartes et Pages Web, chacune englobant un large éventail de scénarios riches en texte dans le monde réel. Ces catégories, en raison de leur complexité et diversité inhérentes, simulent efficacement des environnements réels riches en texte. Nous menons ensuite une évaluation approfondie impliquant 34 MLLMs de premier plan (y compris GPT-4V, Gemini-Pro-Vision et Claude-3-Opus) et mettons en lumière les limitations actuelles des MLLMs dans la compréhension visuelle riche en texte. Nous espérons que notre travail pourra servir de complément précieux aux benchmarks existants des MLLMs, offrant des observations perspicaces et inspirant des recherches supplémentaires dans le domaine de la compréhension visuelle riche en texte avec les MLLMs. Le jeu de données et le code d'évaluation sont accessibles à l'adresse suivante : https://github.com/AILab-CVC/SEED-Bench.

English

Comprehending text-rich visual content is paramount for the practical application of Multimodal Large Language Models (MLLMs), since text-rich scenarios are ubiquitous in the real world, which are characterized by the presence of extensive texts embedded within images. Recently, the advent of MLLMs with impressive versatility has raised the bar for what we can expect from MLLMs. However, their proficiency in text-rich scenarios has yet to be comprehensively and objectively assessed, since current MLLM benchmarks primarily focus on evaluating general visual comprehension. In this work, we introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating text-rich visual comprehension of MLLMs. Our benchmark comprises 2.3K multiple-choice questions with precise human annotations, spanning three broad categories: Charts, Maps, and Webs, each of which covers a wide spectrum of text-rich scenarios in the real world. These categories, due to their inherent complexity and diversity, effectively simulate real-world text-rich environments. We further conduct a thorough evaluation involving 34 prominent MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the current limitations of MLLMs in text-rich visual comprehension. We hope that our work can serve as a valuable addition to existing MLLM benchmarks, providing insightful observations and inspiring further research in the area of text-rich visual comprehension with MLLMs. The dataset and evaluation code can be accessed at https://github.com/AILab-CVC/SEED-Bench.

SEED-Bench-2-Plus : Évaluation des modèles de langage multimodaux de grande échelle avec une compréhension visuelle riche en texte

SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

papers.abstract

Support