CharXiv: Mapeando Lacunas na Compreensão Realista de Gráficos em LLMs Multimodais
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
June 26, 2024
Autores: Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen
cs.AI
Resumo
A compreensão de gráficos desempenha um papel fundamental ao aplicar Modelos de Linguagem Multimodal de Grande Escala (MLLMs) em tarefas do mundo real, como analisar artigos científicos ou relatórios financeiros. No entanto, os conjuntos de dados existentes frequentemente se concentram em gráficos simplificados e homogêneos com perguntas baseadas em modelos, levando a uma medida excessivamente otimista de progresso. Demonstramos que, embora os modelos de código aberto possam parecer superar modelos proprietários fortes nessas referências, um simples teste de estresse com gráficos ou perguntas ligeiramente diferentes pode deteriorar o desempenho em até 34,5%. Neste trabalho, propomos CharXiv, um conjunto abrangente de avaliação que envolve 2.323 gráficos naturais, desafiadores e diversos de artigos do arXiv. CharXiv inclui dois tipos de perguntas: 1) perguntas descritivas sobre a análise dos elementos básicos do gráfico e 2) perguntas de raciocínio que exigem a síntese de informações através de elementos visuais complexos no gráfico. Para garantir qualidade, todos os gráficos e perguntas são selecionados, organizados e verificados por especialistas humanos. Nossos resultados revelam uma lacuna substancial, anteriormente subestimada, entre as habilidades de raciocínio do modelo proprietário mais forte (ou seja, GPT-4o), que alcança 47,1% de precisão, e o modelo de código aberto mais forte (ou seja, InternVL Chat V1.5), que alcança 29,2%. Todos os modelos ficam muito aquém do desempenho humano de 80,5%, destacando as fraquezas nas capacidades de compreensão de gráficos dos MLLMs existentes. Esperamos que o CharXiv facilite pesquisas futuras sobre a compreensão de gráficos por MLLMs, fornecendo uma medida de progresso mais realista e fiel. Página do projeto e classificação: https://charxiv.github.io/
English
Chart understanding plays a pivotal role when applying Multimodal Large
Language Models (MLLMs) to real-world tasks such as analyzing scientific papers
or financial reports. However, existing datasets often focus on oversimplified
and homogeneous charts with template-based questions, leading to an
over-optimistic measure of progress. We demonstrate that although open-source
models can appear to outperform strong proprietary models on these benchmarks,
a simple stress test with slightly different charts or questions can
deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a
comprehensive evaluation suite involving 2,323 natural, challenging, and
diverse charts from arXiv papers. CharXiv includes two types of questions: 1)
descriptive questions about examining basic chart elements and 2) reasoning
questions that require synthesizing information across complex visual elements
in the chart. To ensure quality, all charts and questions are handpicked,
curated, and verified by human experts. Our results reveal a substantial,
previously underestimated gap between the reasoning skills of the strongest
proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the
strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%.
All models lag far behind human performance of 80.5%, underscoring weaknesses
in the chart understanding capabilities of existing MLLMs. We hope CharXiv
facilitates future research on MLLM chart understanding by providing a more
realistic and faithful measure of progress. Project page and leaderboard:
https://charxiv.github.io/