ChatPaper.aiChatPaper

ChartCitor: Мультиагентный фреймворк для детализированной визуальной атрибуции диаграмм.

ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution

February 3, 2025
Авторы: Kanika Goswami, Puneet Mathur, Ryan Rossi, Franck Dernoncourt
cs.AI

Аннотация

Большие языковые модели (LLM) могут выполнять задачи ответов на вопросы по диаграммам, но часто генерируют непроверенные галлюцинации ответов. Существующие методы атрибуции ответов испытывают затруднения в обосновании ответов на основе исходных диаграмм из-за ограниченного визуально-семантического контекста, сложных требований к выравниванию визуального и текстового контента и трудностей в предсказании ограничивающих рамок по сложным макетам. Мы представляем ChartCitor, мультиагентную платформу, которая предоставляет детализированные ссылки на ограничивающие рамки, выявляя подтверждающие доказательства на изображениях диаграмм. Система оркестрирует агентов LLM для выполнения извлечения информации из диаграммы в таблицу, переформулирования ответа, дополнения таблицы, извлечения доказательств через предварительную фильтрацию и повторную ранжировку, а также сопоставления таблицы и диаграммы. ChartCitor превосходит существующие базовые уровни производительности по различным типам диаграмм. Качественные пользовательские исследования показывают, что ChartCitor помогает повысить доверие пользователей к Генеративному ИИ, предоставляя улучшенную объяснимость для LLM-помощи в задачах ответов на вопросы по диаграммам и позволяет профессионалам быть более продуктивными.
English
Large Language Models (LLMs) can perform chart question-answering tasks but often generate unverified hallucinated responses. Existing answer attribution methods struggle to ground responses in source charts due to limited visual-semantic context, complex visual-text alignment requirements, and difficulties in bounding box prediction across complex layouts. We present ChartCitor, a multi-agent framework that provides fine-grained bounding box citations by identifying supporting evidence within chart images. The system orchestrates LLM agents to perform chart-to-table extraction, answer reformulation, table augmentation, evidence retrieval through pre-filtering and re-ranking, and table-to-chart mapping. ChartCitor outperforms existing baselines across different chart types. Qualitative user studies show that ChartCitor helps increase user trust in Generative AI by providing enhanced explainability for LLM-assisted chart QA and enables professionals to be more productive.

Summary

AI-Generated Summary

PDF72February 7, 2025