CharXiv: Выявление пробелов в реалистичном понимании графиков в мультимодальных LLMs
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
June 26, 2024
Авторы: Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen
cs.AI
Аннотация
Понимание графиков играет ключевую роль при применении Мультимодальных Больших Языковых Моделей (MLLMs) к задачам реального мира, таким как анализ научных статей или финансовых отчетов. Однако существующие наборы данных часто сосредоточены на переспрощенных и однородных графиках с вопросами на основе шаблонов, что приводит к чрезмерно оптимистичной оценке прогресса. Мы демонстрируем, что хотя открытые модели могут казаться более эффективными, чем сильные закрытые модели на этих бенчмарках, простой стресс-тест с немного отличающимися графиками или вопросами может снизить производительность на 34.5%. В данной работе мы предлагаем CharXiv, комплексный набор оценки, включающий 2,323 естественных, сложных и разнообразных графика из статей arXiv. CharXiv включает два типа вопросов: 1) описательные вопросы о рассмотрении основных элементов графика и 2) вопросы рассуждения, требующие синтезирования информации по сложным визуальным элементам на графике. Для обеспечения качества все графики и вопросы отбираются, курируются и проверяются экспертами. Наши результаты показывают существенный, ранее недооцененный разрыв между навыками рассуждения сильнейшей закрытой модели (т.е. GPT-4o), достигающей точности 47.1%, и сильнейшей открытой модели (т.е. InternVL Chat V1.5), достигающей 29.2%. Все модели значительно уступают человеческой производительности в 80.5%, подчеркивая слабости в способностях понимания графиков существующих MLLMs. Мы надеемся, что CharXiv способствует будущим исследованиям в области понимания графиков MLLM, предоставляя более реалистичную и точную оценку прогресса. Страница проекта и рейтинг: https://charxiv.github.io/
English
Chart understanding plays a pivotal role when applying Multimodal Large
Language Models (MLLMs) to real-world tasks such as analyzing scientific papers
or financial reports. However, existing datasets often focus on oversimplified
and homogeneous charts with template-based questions, leading to an
over-optimistic measure of progress. We demonstrate that although open-source
models can appear to outperform strong proprietary models on these benchmarks,
a simple stress test with slightly different charts or questions can
deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a
comprehensive evaluation suite involving 2,323 natural, challenging, and
diverse charts from arXiv papers. CharXiv includes two types of questions: 1)
descriptive questions about examining basic chart elements and 2) reasoning
questions that require synthesizing information across complex visual elements
in the chart. To ensure quality, all charts and questions are handpicked,
curated, and verified by human experts. Our results reveal a substantial,
previously underestimated gap between the reasoning skills of the strongest
proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the
strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%.
All models lag far behind human performance of 80.5%, underscoring weaknesses
in the chart understanding capabilities of existing MLLMs. We hope CharXiv
facilitates future research on MLLM chart understanding by providing a more
realistic and faithful measure of progress. Project page and leaderboard:
https://charxiv.github.io/Summary
AI-Generated Summary