ChartAgent: Un Agente Multimodale per il Ragionamento Basato su Elementi Visivi nel Rispondere a Domande Complesse su Grafici
ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering
October 6, 2025
Autori: Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Sumitra Ganesh, Manuela Veloso
cs.AI
Abstract
I recenti modelli linguistici multimodali (LLM) hanno mostrato promettenti risultati nel rispondere a domande basate su grafici, ma le loro prestazioni diminuiscono drasticamente su grafici non annotati, quelli che richiedono un'interpretazione visiva precisa piuttosto che affidarsi a scorciatoie testuali. Per affrontare questo problema, introduciamo ChartAgent, un nuovo framework agentico che esegue esplicitamente il ragionamento visivo direttamente nel dominio spaziale del grafico. A differenza del ragionamento a catena di pensiero testuale, ChartAgent scompone iterativamente le query in sottocompiti visivi e manipola attivamente e interagisce con le immagini dei grafici attraverso azioni specializzate come disegnare annotazioni, ritagliare regioni (ad esempio, segmentare fette di torta, isolare barre) e localizzare assi, utilizzando una libreria di strumenti visivi specifici per grafici per soddisfare ogni sottocompito. Questo processo di ragionamento iterativo rispecchia da vicino le strategie cognitive umane per la comprensione dei grafici. ChartAgent raggiunge un'accuratezza all'avanguardia sui benchmark ChartBench e ChartX, superando i metodi precedenti con un guadagno assoluto complessivo fino al 16,07% e del 17,31% su query non annotate e numericamente intensive. Inoltre, le nostre analisi mostrano che ChartAgent è (a) efficace su diversi tipi di grafici, (b) ottiene i punteggi più alti su vari livelli di complessità visiva e di ragionamento, e (c) funziona come un framework plug-and-play che migliora le prestazioni su diversi LLM sottostanti. Il nostro lavoro è tra i primi a dimostrare un ragionamento visivamente fondato per la comprensione dei grafici utilizzando agenti multimodali potenziati da strumenti.
English
Recent multimodal LLMs have shown promise in chart-based visual question
answering, but their performance declines sharply on unannotated charts, those
requiring precise visual interpretation rather than relying on textual
shortcuts. To address this, we introduce ChartAgent, a novel agentic framework
that explicitly performs visual reasoning directly within the chart's spatial
domain. Unlike textual chain-of-thought reasoning, ChartAgent iteratively
decomposes queries into visual subtasks and actively manipulates and interacts
with chart images through specialized actions such as drawing annotations,
cropping regions (e.g., segmenting pie slices, isolating bars), and localizing
axes, using a library of chart-specific vision tools to fulfill each subtask.
This iterative reasoning process closely mirrors human cognitive strategies for
chart comprehension. ChartAgent achieves state-of-the-art accuracy on the
ChartBench and ChartX benchmarks, surpassing prior methods by up to 16.07%
absolute gain overall and 17.31% on unannotated, numerically intensive queries.
Furthermore, our analyses show that ChartAgent is (a) effective across diverse
chart types, (b) achieve the highest scores across varying visual and reasoning
complexity levels, and (c) serves as a plug-and-play framework that boosts
performance across diverse underlying LLMs. Our work is among the first to
demonstrate visually grounded reasoning for chart understanding using
tool-augmented multimodal agents.