SEED-Bench-2-Plus: Avaliação de Modelos de Linguagem Multimodais de Grande Escala com Compreensão Visual Rica em Texto
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension
April 25, 2024
Autores: Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, Ying Shan
cs.AI
Resumo
Compreender conteúdo visual rico em texto é fundamental para a aplicação prática de Modelos de Linguagem Multimodais de Grande Escala (MLLMs), uma vez que cenários ricos em texto são ubíquos no mundo real, caracterizados pela presença de textos extensos embutidos em imagens. Recentemente, o advento de MLLMs com impressionante versatilidade elevou as expectativas em relação ao que podemos esperar desses modelos. No entanto, sua proficiência em cenários ricos em texto ainda não foi avaliada de forma abrangente e objetiva, já que os benchmarks atuais de MLLMs focam principalmente na avaliação da compreensão visual geral. Neste trabalho, apresentamos o SEED-Bench-2-Plus, um benchmark projetado especificamente para avaliar a compreensão visual rica em texto de MLLMs. Nosso benchmark consiste em 2,3 mil perguntas de múltipla escolha com anotações humanas precisas, abrangendo três categorias amplas: Gráficos, Mapas e Páginas da Web, cada uma das quais cobre um amplo espectro de cenários ricos em texto no mundo real. Essas categorias, devido à sua complexidade e diversidade inerentes, simulam efetivamente ambientes reais ricos em texto. Além disso, realizamos uma avaliação detalhada envolvendo 34 MLLMs proeminentes (incluindo GPT-4V, Gemini-Pro-Vision e Claude-3-Opus) e destacamos as limitações atuais dos MLLMs na compreensão visual rica em texto. Esperamos que nosso trabalho possa servir como uma adição valiosa aos benchmarks existentes de MLLMs, fornecendo observações perspicazes e inspirando pesquisas futuras na área de compreensão visual rica em texto com MLLMs. O conjunto de dados e o código de avaliação podem ser acessados em https://github.com/AILab-CVC/SEED-Bench.
English
Comprehending text-rich visual content is paramount for the practical
application of Multimodal Large Language Models (MLLMs), since text-rich
scenarios are ubiquitous in the real world, which are characterized by the
presence of extensive texts embedded within images. Recently, the advent of
MLLMs with impressive versatility has raised the bar for what we can expect
from MLLMs. However, their proficiency in text-rich scenarios has yet to be
comprehensively and objectively assessed, since current MLLM benchmarks
primarily focus on evaluating general visual comprehension. In this work, we
introduce SEED-Bench-2-Plus, a benchmark specifically designed for evaluating
text-rich visual comprehension of MLLMs. Our benchmark comprises 2.3K
multiple-choice questions with precise human annotations, spanning three broad
categories: Charts, Maps, and Webs, each of which covers a wide spectrum of
text-rich scenarios in the real world. These categories, due to their inherent
complexity and diversity, effectively simulate real-world text-rich
environments. We further conduct a thorough evaluation involving 34 prominent
MLLMs (including GPT-4V, Gemini-Pro-Vision and Claude-3-Opus) and emphasize the
current limitations of MLLMs in text-rich visual comprehension. We hope that
our work can serve as a valuable addition to existing MLLM benchmarks,
providing insightful observations and inspiring further research in the area of
text-rich visual comprehension with MLLMs. The dataset and evaluation code can
be accessed at https://github.com/AILab-CVC/SEED-Bench.