SEED-Bench-2-Plus: Evaluación de Modelos de Lenguaje Multimodales de Gran Escala con Comprensión Visual Rica en Texto
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension
April 25, 2024
Autores: Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, Ying Shan
cs.AI
Resumen
Comprender el contenido visual rico en texto es fundamental para la aplicación práctica de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), ya que los escenarios ricos en texto son omnipresentes en el mundo real, caracterizados por la presencia de textos extensos incrustados en imágenes. Recientemente, la aparición de MLLMs con una versatilidad impresionante ha elevado el listón de lo que podemos esperar de estos modelos. Sin embargo, su competencia en escenarios ricos en texto aún no ha sido evaluada de manera exhaustiva y objetiva, ya que los puntos de referencia actuales para MLLMs se centran principalmente en evaluar la comprensión visual general. En este trabajo, presentamos SEED-Bench-2-Plus, un punto de referencia diseñado específicamente para evaluar la comprensión visual rica en texto de los MLLMs. Nuestro punto de referencia comprende 2.3K preguntas de opción múltiple con anotaciones humanas precisas, abarcando tres categorías amplias: Gráficos, Mapas y Webs, cada una de las cuales cubre un amplio espectro de escenarios ricos en texto en el mundo real. Estas categorías, debido a su inherente complejidad y diversidad, simulan de manera efectiva entornos reales ricos en texto. Además, llevamos a cabo una evaluación exhaustiva que involucra a 34 MLLMs destacados (incluyendo GPT-4V, Gemini-Pro-Vision y Claude-3-Opus) y destacamos las limitaciones actuales de los MLLMs en la comprensión visual rica en texto. Esperamos que nuestro trabajo pueda servir como una valiosa adición a los puntos de referencia existentes para MLLMs, proporcionando observaciones perspicaces e inspirando más investigaciones en el área de la comprensión visual rica en texto con MLLMs. El conjunto de datos y el código de evaluación pueden accederse en https://github.com/AILab-CVC/SEED-Bench.
English
Comprehending text-rich visual content is paramount for the practical
application of Multimodal Large Language Models (MLLMs), since text-rich
scenarios are ubiquitous in the real world, which are characterized by the
presence of extensive texts embedded within images. Recently, the advent of
MLLMs with impressive versatility has raised the bar for what we can expect
from MLLMs. However, their proficiency in text-rich scenarios has yet to be
comprehensively and objectively assessed, since current MLLM benchmarks
primarily focus on evaluating general visual comprehension. In this work, we
introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating
text-rich visual comprehension of MLLMs. Our benchmark comprises 2.3K
multiple-choice questions with precise human annotations, spanning three broad
categories: Charts, Maps, and Webs, each of which covers a wide spectrum of
text-rich scenarios in the real world. These categories, due to their inherent
complexity and diversity, effectively simulate real-world text-rich
environments. We further conduct a thorough evaluation involving 34 prominent
MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the
current limitations of MLLMs in text-rich visual comprehension. We hope that
our work can serve as a valuable addition to existing MLLM benchmarks,
providing insightful observations and inspiring further research in the area of
text-rich visual comprehension with MLLMs. The dataset and evaluation code can
be accessed at https://github.com/AILab-CVC/SEED-Bench.Summary
AI-Generated Summary