ChartAgent : Un agent multimodal pour le raisonnement visuel ancré dans les graphiques complexes pour la réponse à des questions
ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering
October 6, 2025
papers.authors: Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Sumitra Ganesh, Manuela Veloso
cs.AI
papers.abstract
Les modèles de langage multimodaux (LLM) récents ont montré des promesses dans la réponse à des questions visuelles basées sur des graphiques, mais leurs performances déclinent fortement sur des graphiques non annotés, ceux nécessitant une interprétation visuelle précise plutôt que de s'appuyer sur des raccourcis textuels. Pour remédier à cela, nous introduisons ChartAgent, un cadre agentique novateur qui effectue explicitement un raisonnement visuel directement dans le domaine spatial du graphique. Contrairement au raisonnement en chaîne de pensée textuel, ChartAgent décompose itérativement les requêtes en sous-tâches visuelles et manipule activement et interagit avec les images de graphiques à travers des actions spécialisées telles que l'ajout d'annotations, le recadrage de régions (par exemple, la segmentation de tranches de camembert, l'isolation de barres), et la localisation d'axes, en utilisant une bibliothèque d'outils de vision spécifiques aux graphiques pour accomplir chaque sous-tâche. Ce processus de raisonnement itératif reflète étroitement les stratégies cognitives humaines pour la compréhension des graphiques. ChartAgent atteint une précision de pointe sur les benchmarks ChartBench et ChartX, surpassant les méthodes précédentes avec un gain absolu allant jusqu'à 16,07 % globalement et 17,31 % sur les requêtes non annotées et numériquement intensives. De plus, nos analyses montrent que ChartAgent est (a) efficace sur divers types de graphiques, (b) obtient les scores les plus élevés à travers différents niveaux de complexité visuelle et de raisonnement, et (c) sert de cadre plug-and-play qui améliore les performances sur divers LLM sous-jacents. Notre travail est parmi les premiers à démontrer un raisonnement visuellement ancré pour la compréhension des graphiques en utilisant des agents multimodaux augmentés par des outils.
English
Recent multimodal LLMs have shown promise in chart-based visual question
answering, but their performance declines sharply on unannotated charts, those
requiring precise visual interpretation rather than relying on textual
shortcuts. To address this, we introduce ChartAgent, a novel agentic framework
that explicitly performs visual reasoning directly within the chart's spatial
domain. Unlike textual chain-of-thought reasoning, ChartAgent iteratively
decomposes queries into visual subtasks and actively manipulates and interacts
with chart images through specialized actions such as drawing annotations,
cropping regions (e.g., segmenting pie slices, isolating bars), and localizing
axes, using a library of chart-specific vision tools to fulfill each subtask.
This iterative reasoning process closely mirrors human cognitive strategies for
chart comprehension. ChartAgent achieves state-of-the-art accuracy on the
ChartBench and ChartX benchmarks, surpassing prior methods by up to 16.07%
absolute gain overall and 17.31% on unannotated, numerically intensive queries.
Furthermore, our analyses show that ChartAgent is (a) effective across diverse
chart types, (b) achieve the highest scores across varying visual and reasoning
complexity levels, and (c) serves as a plug-and-play framework that boosts
performance across diverse underlying LLMs. Our work is among the first to
demonstrate visually grounded reasoning for chart understanding using
tool-augmented multimodal agents.