ChartCitor : Cadre Multi-Agent pour l'Attribution Visuelle Fine des Graphiques
ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution
February 3, 2025
Auteurs: Kanika Goswami, Puneet Mathur, Ryan Rossi, Franck Dernoncourt
cs.AI
Résumé
Les grands modèles de langage (LLM) peuvent effectuer des tâches de question-réponse sur des graphiques, mais génèrent souvent des réponses hallucinées non vérifiées. Les méthodes d'attribution de réponse existantes ont du mal à ancrer les réponses dans les graphiques sources en raison d'un contexte visuel-sémantique limité, d'exigences complexes d'alignement visuel-texte et de difficultés de prédiction de boîte englobante à travers des mises en page complexes. Nous présentons ChartCitor, un cadre multi-agent qui fournit des citations de boîtes englobantes fines en identifiant des preuves à l'intérieur des images de graphiques. Le système orchestre des agents LLM pour effectuer l'extraction de graphique vers tableau, la reformulation de réponse, l'augmentation de tableau, la récupération de preuves par pré-filtrage et re-classement, et la cartographie de tableau vers graphique. ChartCitor surpasse les baselines existantes pour différents types de graphiques. Des études utilisateur qualitatives montrent que ChartCitor aide à accroître la confiance des utilisateurs dans l'IA générative en fournissant une explicabilité améliorée pour la question-réponse assistée par LLM sur les graphiques et permet aux professionnels d'être plus productifs.
English
Large Language Models (LLMs) can perform chart question-answering tasks but
often generate unverified hallucinated responses. Existing answer attribution
methods struggle to ground responses in source charts due to limited
visual-semantic context, complex visual-text alignment requirements, and
difficulties in bounding box prediction across complex layouts. We present
ChartCitor, a multi-agent framework that provides fine-grained bounding box
citations by identifying supporting evidence within chart images. The system
orchestrates LLM agents to perform chart-to-table extraction, answer
reformulation, table augmentation, evidence retrieval through pre-filtering and
re-ranking, and table-to-chart mapping. ChartCitor outperforms existing
baselines across different chart types. Qualitative user studies show that
ChartCitor helps increase user trust in Generative AI by providing enhanced
explainability for LLM-assisted chart QA and enables professionals to be more
productive.Summary
AI-Generated Summary