ChartAgent: Een Multimodale Agent voor Visueel Onderbouwde Redenering in Complexe Grafiekvraagbeantwoording

Samenvatting

Recente multimodale LLM's hebben potentie getoond in visueel vraagbeantwoorden op basis van grafieken, maar hun prestaties nemen sterk af bij niet-geannoteerde grafieken, die een nauwkeurige visuele interpretatie vereisen in plaats van te vertrouwen op tekstuele shortcuts. Om dit aan te pakken, introduceren we ChartAgent, een nieuw agent-gebaseerd framework dat expliciet visueel redeneren uitvoert binnen het ruimtelijke domein van de grafiek. In tegenstelling tot tekstuele chain-of-thought redenering, decomposeert ChartAgent iteratief vragen in visuele subtaken en manipuleert en interageert het actief met grafiekafbeeldingen via gespecialiseerde acties zoals het tekenen van annotaties, het bijsnijden van regio's (bijvoorbeeld het segmenteren van taartpunten, het isoleren van balken) en het lokaliseren van assen, waarbij een bibliotheek van grafiekspecifieke visuele tools wordt gebruikt om elke subtask te voltooien. Dit iteratieve redeneerproces weerspiegelt nauwkeurig menselijke cognitieve strategieën voor grafiekbegrip. ChartAgent behaalt state-of-the-art nauwkeurigheid op de ChartBench en ChartX benchmarks, en overtreft eerdere methoden met een absolute winst van maximaal 16,07% in het algemeen en 17,31% op niet-geannoteerde, numeriek intensieve vragen. Bovendien tonen onze analyses aan dat ChartAgent (a) effectief is over diverse grafiektypen, (b) de hoogste scores behaalt over verschillende niveaus van visuele en redeneercomplexiteit, en (c) fungeert als een plug-and-play framework dat de prestaties verbetert over diverse onderliggende LLM's. Ons werk behoort tot de eerste die visueel verankerd redeneren voor grafiekbegrip demonstreert met tool-augmented multimodale agents.

English

Recent multimodal LLMs have shown promise in chart-based visual question answering, but their performance declines sharply on unannotated charts, those requiring precise visual interpretation rather than relying on textual shortcuts. To address this, we introduce ChartAgent, a novel agentic framework that explicitly performs visual reasoning directly within the chart's spatial domain. Unlike textual chain-of-thought reasoning, ChartAgent iteratively decomposes queries into visual subtasks and actively manipulates and interacts with chart images through specialized actions such as drawing annotations, cropping regions (e.g., segmenting pie slices, isolating bars), and localizing axes, using a library of chart-specific vision tools to fulfill each subtask. This iterative reasoning process closely mirrors human cognitive strategies for chart comprehension. ChartAgent achieves state-of-the-art accuracy on the ChartBench and ChartX benchmarks, surpassing prior methods by up to 16.07% absolute gain overall and 17.31% on unannotated, numerically intensive queries. Furthermore, our analyses show that ChartAgent is (a) effective across diverse chart types, (b) achieve the highest scores across varying visual and reasoning complexity levels, and (c) serves as a plug-and-play framework that boosts performance across diverse underlying LLMs. Our work is among the first to demonstrate visually grounded reasoning for chart understanding using tool-augmented multimodal agents.

ChartAgent: Een Multimodale Agent voor Visueel Onderbouwde Redenering in Complexe Grafiekvraagbeantwoording

ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering

Samenvatting

Support