ChatPaper.aiChatPaper

CharXiv: Mapeando las Brechas en la Comprensión Realista de Gráficos en Modelos de Lenguaje Multimodales

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

June 26, 2024
Autores: Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen
cs.AI

Resumen

La comprensión de gráficos juega un papel fundamental al aplicar Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) a tareas del mundo real, como el análisis de artículos científicos o informes financieros. Sin embargo, los conjuntos de datos existentes suelen centrarse en gráficos simplificados y homogéneos con preguntas basadas en plantillas, lo que lleva a una medida de progreso excesivamente optimista. Demostramos que, aunque los modelos de código abierto pueden parecer superar a los modelos propietarios más robustos en estos puntos de referencia, una simple prueba de estrés con gráficos o preguntas ligeramente diferentes puede deteriorar el rendimiento hasta en un 34.5%. En este trabajo, proponemos CharXiv, una suite de evaluación integral que incluye 2,323 gráficos naturales, desafiantes y diversos extraídos de artículos de arXiv. CharXiv incluye dos tipos de preguntas: 1) preguntas descriptivas sobre la examinación de elementos básicos del gráfico y 2) preguntas de razonamiento que requieren sintetizar información a través de elementos visuales complejos en el gráfico. Para garantizar la calidad, todos los gráficos y preguntas son seleccionados, curados y verificados manualmente por expertos humanos. Nuestros resultados revelan una brecha sustancial y previamente subestimada entre las habilidades de razonamiento del modelo propietario más fuerte (es decir, GPT-4o), que alcanza un 47.1% de precisión, y el modelo de código abierto más robusto (es decir, InternVL Chat V1.5), que alcanza un 29.2%. Todos los modelos están muy por detrás del rendimiento humano del 80.5%, lo que subraya las debilidades en las capacidades de comprensión de gráficos de los MLLMs existentes. Esperamos que CharXiv facilite futuras investigaciones sobre la comprensión de gráficos en MLLMs al proporcionar una medida más realista y fiel del progreso. Página del proyecto y tabla de clasificación: https://charxiv.github.io/
English
Chart understanding plays a pivotal role when applying Multimodal Large Language Models (MLLMs) to real-world tasks such as analyzing scientific papers or financial reports. However, existing datasets often focus on oversimplified and homogeneous charts with template-based questions, leading to an over-optimistic measure of progress. We demonstrate that although open-source models can appear to outperform strong proprietary models on these benchmarks, a simple stress test with slightly different charts or questions can deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a comprehensive evaluation suite involving 2,323 natural, challenging, and diverse charts from arXiv papers. CharXiv includes two types of questions: 1) descriptive questions about examining basic chart elements and 2) reasoning questions that require synthesizing information across complex visual elements in the chart. To ensure quality, all charts and questions are handpicked, curated, and verified by human experts. Our results reveal a substantial, previously underestimated gap between the reasoning skills of the strongest proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%. All models lag far behind human performance of 80.5%, underscoring weaknesses in the chart understanding capabilities of existing MLLMs. We hope CharXiv facilitates future research on MLLM chart understanding by providing a more realistic and faithful measure of progress. Project page and leaderboard: https://charxiv.github.io/

Summary

AI-Generated Summary

PDF302November 29, 2024