ChartAgent: Мультимодальный агент для визуально обоснованных рассуждений в сложных задачах ответов на вопросы по графикам

Аннотация

Последние мультимодальные языковые модели (LLM) показали перспективные результаты в задачах визуального ответа на вопросы по графикам, однако их производительность резко снижается на неаннотированных графиках, требующих точной визуальной интерпретации, а не опоры на текстовые подсказки. Для решения этой проблемы мы представляем ChartAgent — новый агентный фреймворк, который явно выполняет визуальное рассуждение непосредственно в пространственной области графика. В отличие от текстового цепочечного рассуждения (chain-of-thought), ChartAgent итеративно разбивает запросы на визуальные подзадачи и активно манипулирует изображениями графиков, взаимодействуя с ними через специализированные действия, такие как нанесение аннотаций, обрезка областей (например, сегментирование секторов круговой диаграммы, выделение столбцов) и локализация осей, используя библиотеку инструментов для работы с графиками. Этот итеративный процесс рассуждения тесно отражает когнитивные стратегии человека при анализе графиков. ChartAgent достигает наивысшей точности на бенчмарках ChartBench и ChartX, превосходя предыдущие методы с абсолютным приростом до 16,07% в целом и 17,31% на неаннотированных, численно сложных запросах. Кроме того, наши анализы показывают, что ChartAgent (а) эффективен для различных типов графиков, (б) достигает наивысших результатов на разных уровнях визуальной и логической сложности и (в) служит модульным фреймворком, который повышает производительность различных базовых LLM. Наша работа является одной из первых, демонстрирующих визуально обоснованное рассуждение для понимания графиков с использованием мультимодальных агентов, усиленных инструментами.

English

Recent multimodal LLMs have shown promise in chart-based visual question answering, but their performance declines sharply on unannotated charts, those requiring precise visual interpretation rather than relying on textual shortcuts. To address this, we introduce ChartAgent, a novel agentic framework that explicitly performs visual reasoning directly within the chart's spatial domain. Unlike textual chain-of-thought reasoning, ChartAgent iteratively decomposes queries into visual subtasks and actively manipulates and interacts with chart images through specialized actions such as drawing annotations, cropping regions (e.g., segmenting pie slices, isolating bars), and localizing axes, using a library of chart-specific vision tools to fulfill each subtask. This iterative reasoning process closely mirrors human cognitive strategies for chart comprehension. ChartAgent achieves state-of-the-art accuracy on the ChartBench and ChartX benchmarks, surpassing prior methods by up to 16.07% absolute gain overall and 17.31% on unannotated, numerically intensive queries. Furthermore, our analyses show that ChartAgent is (a) effective across diverse chart types, (b) achieve the highest scores across varying visual and reasoning complexity levels, and (c) serves as a plug-and-play framework that boosts performance across diverse underlying LLMs. Our work is among the first to demonstrate visually grounded reasoning for chart understanding using tool-augmented multimodal agents.