ChartAgent: Een Multimodale Agent voor Visueel Onderbouwde Redenering in Complexe Grafiekvraagbeantwoording
ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering
October 6, 2025
Auteurs: Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Sumitra Ganesh, Manuela Veloso
cs.AI
Samenvatting
Recente multimodale LLM's hebben potentie getoond in visueel vraagbeantwoorden op basis van grafieken, maar hun prestaties nemen sterk af bij niet-geannoteerde grafieken, die een nauwkeurige visuele interpretatie vereisen in plaats van te vertrouwen op tekstuele shortcuts. Om dit aan te pakken, introduceren we ChartAgent, een nieuw agent-gebaseerd framework dat expliciet visueel redeneren uitvoert binnen het ruimtelijke domein van de grafiek. In tegenstelling tot tekstuele chain-of-thought redenering, decomposeert ChartAgent iteratief vragen in visuele subtaken en manipuleert en interageert het actief met grafiekafbeeldingen via gespecialiseerde acties zoals het tekenen van annotaties, het bijsnijden van regio's (bijvoorbeeld het segmenteren van taartpunten, het isoleren van balken) en het lokaliseren van assen, waarbij een bibliotheek van grafiekspecifieke visuele tools wordt gebruikt om elke subtask te voltooien. Dit iteratieve redeneerproces weerspiegelt nauwkeurig menselijke cognitieve strategieën voor grafiekbegrip. ChartAgent behaalt state-of-the-art nauwkeurigheid op de ChartBench en ChartX benchmarks, en overtreft eerdere methoden met een absolute winst van maximaal 16,07% in het algemeen en 17,31% op niet-geannoteerde, numeriek intensieve vragen. Bovendien tonen onze analyses aan dat ChartAgent (a) effectief is over diverse grafiektypen, (b) de hoogste scores behaalt over verschillende niveaus van visuele en redeneercomplexiteit, en (c) fungeert als een plug-and-play framework dat de prestaties verbetert over diverse onderliggende LLM's. Ons werk behoort tot de eerste die visueel verankerd redeneren voor grafiekbegrip demonstreert met tool-augmented multimodale agents.
English
Recent multimodal LLMs have shown promise in chart-based visual question
answering, but their performance declines sharply on unannotated charts, those
requiring precise visual interpretation rather than relying on textual
shortcuts. To address this, we introduce ChartAgent, a novel agentic framework
that explicitly performs visual reasoning directly within the chart's spatial
domain. Unlike textual chain-of-thought reasoning, ChartAgent iteratively
decomposes queries into visual subtasks and actively manipulates and interacts
with chart images through specialized actions such as drawing annotations,
cropping regions (e.g., segmenting pie slices, isolating bars), and localizing
axes, using a library of chart-specific vision tools to fulfill each subtask.
This iterative reasoning process closely mirrors human cognitive strategies for
chart comprehension. ChartAgent achieves state-of-the-art accuracy on the
ChartBench and ChartX benchmarks, surpassing prior methods by up to 16.07%
absolute gain overall and 17.31% on unannotated, numerically intensive queries.
Furthermore, our analyses show that ChartAgent is (a) effective across diverse
chart types, (b) achieve the highest scores across varying visual and reasoning
complexity levels, and (c) serves as a plug-and-play framework that boosts
performance across diverse underlying LLMs. Our work is among the first to
demonstrate visually grounded reasoning for chart understanding using
tool-augmented multimodal agents.