ChatPaper.aiChatPaper

ChartAgent: Un Agente Multimodal para el Razonamiento Basado en Visualización en la Resolución Compleja de Preguntas sobre Gráficos

ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering

October 6, 2025
Autores: Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Sumitra Ganesh, Manuela Veloso
cs.AI

Resumen

Los modelos de lenguaje multimodal (LLM) recientes han mostrado avances en la respuesta a preguntas visuales basadas en gráficos, pero su rendimiento disminuye drásticamente en gráficos no anotados, aquellos que requieren una interpretación visual precisa en lugar de depender de atajos textuales. Para abordar esto, presentamos ChartAgent, un marco agencial novedoso que realiza explícitamente razonamiento visual directamente en el dominio espacial del gráfico. A diferencia del razonamiento textual de cadena de pensamiento, ChartAgent descompone iterativamente las consultas en subtareas visuales y manipula e interactúa activamente con las imágenes de los gráficos mediante acciones especializadas, como dibujar anotaciones, recortar regiones (por ejemplo, segmentar porciones de un gráfico circular, aislar barras) y localizar ejes, utilizando una biblioteca de herramientas visuales específicas para gráficos para cumplir cada subtarea. Este proceso de razonamiento iterativo refleja de cerca las estrategias cognitivas humanas para la comprensión de gráficos. ChartAgent logra una precisión de vanguardia en los benchmarks ChartBench y ChartX, superando a métodos anteriores con una mejora absoluta de hasta 16.07% en general y 17.31% en consultas no anotadas y numéricamente intensivas. Además, nuestros análisis muestran que ChartAgent (a) es efectivo en diversos tipos de gráficos, (b) alcanza las puntuaciones más altas en distintos niveles de complejidad visual y de razonamiento, y (c) funciona como un marco plug-and-play que mejora el rendimiento en diversos LLM subyacentes. Nuestro trabajo es uno de los primeros en demostrar razonamiento visualmente fundamentado para la comprensión de gráficos utilizando agentes multimodales aumentados con herramientas.
English
Recent multimodal LLMs have shown promise in chart-based visual question answering, but their performance declines sharply on unannotated charts, those requiring precise visual interpretation rather than relying on textual shortcuts. To address this, we introduce ChartAgent, a novel agentic framework that explicitly performs visual reasoning directly within the chart's spatial domain. Unlike textual chain-of-thought reasoning, ChartAgent iteratively decomposes queries into visual subtasks and actively manipulates and interacts with chart images through specialized actions such as drawing annotations, cropping regions (e.g., segmenting pie slices, isolating bars), and localizing axes, using a library of chart-specific vision tools to fulfill each subtask. This iterative reasoning process closely mirrors human cognitive strategies for chart comprehension. ChartAgent achieves state-of-the-art accuracy on the ChartBench and ChartX benchmarks, surpassing prior methods by up to 16.07% absolute gain overall and 17.31% on unannotated, numerically intensive queries. Furthermore, our analyses show that ChartAgent is (a) effective across diverse chart types, (b) achieve the highest scores across varying visual and reasoning complexity levels, and (c) serves as a plug-and-play framework that boosts performance across diverse underlying LLMs. Our work is among the first to demonstrate visually grounded reasoning for chart understanding using tool-augmented multimodal agents.
PDF12October 8, 2025