ChatPaper.aiChatPaper

ChartAgent: Ein multimodaler Agent für visuell fundiertes Denken in komplexen Diagramm-Frage-Antwort-Systemen

ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering

October 6, 2025
papers.authors: Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Sumitra Ganesh, Manuela Veloso
cs.AI

papers.abstract

Aktuelle multimodale LLMs haben vielversprechende Ergebnisse bei der visuellen Fragebeantwortung auf Basis von Diagrammen gezeigt, doch ihre Leistung nimmt bei nicht annotierten Diagrammen, die eine präzise visuelle Interpretation erfordern anstatt sich auf textuelle Abkürzungen zu verlassen, deutlich ab. Um dies zu adressieren, führen wir ChartAgent ein, ein neuartiges agentenbasiertes Framework, das explizit visuelles Denken direkt im räumlichen Bereich des Diagramms durchführt. Im Gegensatz zur textuellen Kettenfolge des Denkens zerlegt ChartAgent Anfragen iterativ in visuelle Teilaufgaben und interagiert aktiv mit Diagrammbildern durch spezialisierte Aktionen wie das Zeichnen von Annotationen, das Zuschneiden von Bereichen (z. B. das Segmentieren von Tortendiagrammteilen, das Isolieren von Balken) und das Lokalisieren von Achsen, wobei eine Bibliothek von diagrammspezifischen Vision-Tools verwendet wird, um jede Teilaufgabe zu erfüllen. Dieser iterative Denkprozess spiegelt eng die menschlichen kognitiven Strategien zum Diagrammverständnis wider. ChartAgent erreicht state-of-the-art Genauigkeit auf den Benchmarks ChartBench und ChartX und übertrifft bisherige Methoden mit einem absoluten Gewinn von bis zu 16,07 % insgesamt und 17,31 % bei nicht annotierten, numerisch anspruchsvollen Anfragen. Darüber hinaus zeigen unsere Analysen, dass ChartAgent (a) effektiv über verschiedene Diagrammtypen hinweg ist, (b) die höchsten Werte über unterschiedliche visuelle und Denkkomplexitätsniveaus erreicht und (c) als Plug-and-Play-Framework dient, das die Leistung über verschiedene zugrunde liegende LLMs hinweg steigert. Unsere Arbeit gehört zu den ersten, die visuell fundiertes Denken für das Diagrammverständnis mithilfe von tool-augmentierten multimodalen Agenten demonstrieren.
English
Recent multimodal LLMs have shown promise in chart-based visual question answering, but their performance declines sharply on unannotated charts, those requiring precise visual interpretation rather than relying on textual shortcuts. To address this, we introduce ChartAgent, a novel agentic framework that explicitly performs visual reasoning directly within the chart's spatial domain. Unlike textual chain-of-thought reasoning, ChartAgent iteratively decomposes queries into visual subtasks and actively manipulates and interacts with chart images through specialized actions such as drawing annotations, cropping regions (e.g., segmenting pie slices, isolating bars), and localizing axes, using a library of chart-specific vision tools to fulfill each subtask. This iterative reasoning process closely mirrors human cognitive strategies for chart comprehension. ChartAgent achieves state-of-the-art accuracy on the ChartBench and ChartX benchmarks, surpassing prior methods by up to 16.07% absolute gain overall and 17.31% on unannotated, numerically intensive queries. Furthermore, our analyses show that ChartAgent is (a) effective across diverse chart types, (b) achieve the highest scores across varying visual and reasoning complexity levels, and (c) serves as a plug-and-play framework that boosts performance across diverse underlying LLMs. Our work is among the first to demonstrate visually grounded reasoning for chart understanding using tool-augmented multimodal agents.
PDF12October 8, 2025