ChatPaper.aiChatPaper

ChartAgent: Um Agente Multimodal para Raciocínio Fundamentado Visualmente em Tarefas Complexas de Resposta a Perguntas sobre Gráficos

ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering

October 6, 2025
Autores: Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Sumitra Ganesh, Manuela Veloso
cs.AI

Resumo

Modelos de linguagem multimodal recentes têm mostrado potencial na resposta a perguntas baseadas em gráficos, mas seu desempenho cai drasticamente em gráficos não anotados, aqueles que exigem interpretação visual precisa em vez de depender de atalhos textuais. Para resolver isso, introduzimos o ChartAgent, uma estrutura agentiva inovadora que realiza explicitamente o raciocínio visual diretamente no domínio espacial do gráfico. Diferente do raciocínio em cadeia de pensamento textual, o ChartAgent decompõe iterativamente as consultas em subtarefas visuais e manipula e interage ativamente com as imagens dos gráficos por meio de ações especializadas, como desenhar anotações, recortar regiões (por exemplo, segmentar fatias de pizza, isolar barras) e localizar eixos, utilizando uma biblioteca de ferramentas visuais específicas para gráficos para cumprir cada subtarefa. Esse processo iterativo de raciocínio espelha de perto as estratégias cognitivas humanas para a compreensão de gráficos. O ChartAgent alcança precisão de ponta nos benchmarks ChartBench e ChartX, superando métodos anteriores com ganhos absolutos de até 16,07% no geral e 17,31% em consultas numericamente intensivas e não anotadas. Além disso, nossas análises mostram que o ChartAgent é (a) eficaz em diversos tipos de gráficos, (b) obtém as pontuações mais altas em diferentes níveis de complexidade visual e de raciocínio, e (c) serve como uma estrutura plug-and-play que melhora o desempenho em diversos modelos de linguagem subjacentes. Nosso trabalho está entre os primeiros a demonstrar raciocínio visualmente fundamentado para a compreensão de gráficos usando agentes multimodais aumentados por ferramentas.
English
Recent multimodal LLMs have shown promise in chart-based visual question answering, but their performance declines sharply on unannotated charts, those requiring precise visual interpretation rather than relying on textual shortcuts. To address this, we introduce ChartAgent, a novel agentic framework that explicitly performs visual reasoning directly within the chart's spatial domain. Unlike textual chain-of-thought reasoning, ChartAgent iteratively decomposes queries into visual subtasks and actively manipulates and interacts with chart images through specialized actions such as drawing annotations, cropping regions (e.g., segmenting pie slices, isolating bars), and localizing axes, using a library of chart-specific vision tools to fulfill each subtask. This iterative reasoning process closely mirrors human cognitive strategies for chart comprehension. ChartAgent achieves state-of-the-art accuracy on the ChartBench and ChartX benchmarks, surpassing prior methods by up to 16.07% absolute gain overall and 17.31% on unannotated, numerically intensive queries. Furthermore, our analyses show that ChartAgent is (a) effective across diverse chart types, (b) achieve the highest scores across varying visual and reasoning complexity levels, and (c) serves as a plug-and-play framework that boosts performance across diverse underlying LLMs. Our work is among the first to demonstrate visually grounded reasoning for chart understanding using tool-augmented multimodal agents.
PDF22October 8, 2025