ChartCitor: Мультиагентный фреймворк для детализированной визуальной атрибуции диаграмм.
ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution
February 3, 2025
Авторы: Kanika Goswami, Puneet Mathur, Ryan Rossi, Franck Dernoncourt
cs.AI
Аннотация
Большие языковые модели (LLM) могут выполнять задачи ответов на вопросы по диаграммам, но часто генерируют непроверенные галлюцинации ответов. Существующие методы атрибуции ответов испытывают затруднения в обосновании ответов на основе исходных диаграмм из-за ограниченного визуально-семантического контекста, сложных требований к выравниванию визуального и текстового контента и трудностей в предсказании ограничивающих рамок по сложным макетам. Мы представляем ChartCitor, мультиагентную платформу, которая предоставляет детализированные ссылки на ограничивающие рамки, выявляя подтверждающие доказательства на изображениях диаграмм. Система оркестрирует агентов LLM для выполнения извлечения информации из диаграммы в таблицу, переформулирования ответа, дополнения таблицы, извлечения доказательств через предварительную фильтрацию и повторную ранжировку, а также сопоставления таблицы и диаграммы. ChartCitor превосходит существующие базовые уровни производительности по различным типам диаграмм. Качественные пользовательские исследования показывают, что ChartCitor помогает повысить доверие пользователей к Генеративному ИИ, предоставляя улучшенную объяснимость для LLM-помощи в задачах ответов на вопросы по диаграммам и позволяет профессионалам быть более продуктивными.
English
Large Language Models (LLMs) can perform chart question-answering tasks but
often generate unverified hallucinated responses. Existing answer attribution
methods struggle to ground responses in source charts due to limited
visual-semantic context, complex visual-text alignment requirements, and
difficulties in bounding box prediction across complex layouts. We present
ChartCitor, a multi-agent framework that provides fine-grained bounding box
citations by identifying supporting evidence within chart images. The system
orchestrates LLM agents to perform chart-to-table extraction, answer
reformulation, table augmentation, evidence retrieval through pre-filtering and
re-ranking, and table-to-chart mapping. ChartCitor outperforms existing
baselines across different chart types. Qualitative user studies show that
ChartCitor helps increase user trust in Generative AI by providing enhanced
explainability for LLM-assisted chart QA and enables professionals to be more
productive.Summary
AI-Generated Summary