ChartAgent: Мультимодальный агент для визуально обоснованных рассуждений в сложных задачах ответов на вопросы по графикам
ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering
October 6, 2025
Авторы: Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Sumitra Ganesh, Manuela Veloso
cs.AI
Аннотация
Последние мультимодальные языковые модели (LLM) показали перспективные результаты в задачах визуального ответа на вопросы по графикам, однако их производительность резко снижается на неаннотированных графиках, требующих точной визуальной интерпретации, а не опоры на текстовые подсказки. Для решения этой проблемы мы представляем ChartAgent — новый агентный фреймворк, который явно выполняет визуальное рассуждение непосредственно в пространственной области графика. В отличие от текстового цепочечного рассуждения (chain-of-thought), ChartAgent итеративно разбивает запросы на визуальные подзадачи и активно манипулирует изображениями графиков, взаимодействуя с ними через специализированные действия, такие как нанесение аннотаций, обрезка областей (например, сегментирование секторов круговой диаграммы, выделение столбцов) и локализация осей, используя библиотеку инструментов для работы с графиками. Этот итеративный процесс рассуждения тесно отражает когнитивные стратегии человека при анализе графиков. ChartAgent достигает наивысшей точности на бенчмарках ChartBench и ChartX, превосходя предыдущие методы с абсолютным приростом до 16,07% в целом и 17,31% на неаннотированных, численно сложных запросах. Кроме того, наши анализы показывают, что ChartAgent (а) эффективен для различных типов графиков, (б) достигает наивысших результатов на разных уровнях визуальной и логической сложности и (в) служит модульным фреймворком, который повышает производительность различных базовых LLM. Наша работа является одной из первых, демонстрирующих визуально обоснованное рассуждение для понимания графиков с использованием мультимодальных агентов, усиленных инструментами.
English
Recent multimodal LLMs have shown promise in chart-based visual question
answering, but their performance declines sharply on unannotated charts, those
requiring precise visual interpretation rather than relying on textual
shortcuts. To address this, we introduce ChartAgent, a novel agentic framework
that explicitly performs visual reasoning directly within the chart's spatial
domain. Unlike textual chain-of-thought reasoning, ChartAgent iteratively
decomposes queries into visual subtasks and actively manipulates and interacts
with chart images through specialized actions such as drawing annotations,
cropping regions (e.g., segmenting pie slices, isolating bars), and localizing
axes, using a library of chart-specific vision tools to fulfill each subtask.
This iterative reasoning process closely mirrors human cognitive strategies for
chart comprehension. ChartAgent achieves state-of-the-art accuracy on the
ChartBench and ChartX benchmarks, surpassing prior methods by up to 16.07%
absolute gain overall and 17.31% on unannotated, numerically intensive queries.
Furthermore, our analyses show that ChartAgent is (a) effective across diverse
chart types, (b) achieve the highest scores across varying visual and reasoning
complexity levels, and (c) serves as a plug-and-play framework that boosts
performance across diverse underlying LLMs. Our work is among the first to
demonstrate visually grounded reasoning for chart understanding using
tool-augmented multimodal agents.