ChartCitor : Cadre Multi-Agent pour l'Attribution Visuelle Fine des Graphiques

papers.abstract

Les grands modèles de langage (LLM) peuvent effectuer des tâches de question-réponse sur des graphiques, mais génèrent souvent des réponses hallucinées non vérifiées. Les méthodes d'attribution de réponse existantes ont du mal à ancrer les réponses dans les graphiques sources en raison d'un contexte visuel-sémantique limité, d'exigences complexes d'alignement visuel-texte et de difficultés de prédiction de boîte englobante à travers des mises en page complexes. Nous présentons ChartCitor, un cadre multi-agent qui fournit des citations de boîtes englobantes fines en identifiant des preuves à l'intérieur des images de graphiques. Le système orchestre des agents LLM pour effectuer l'extraction de graphique vers tableau, la reformulation de réponse, l'augmentation de tableau, la récupération de preuves par pré-filtrage et re-classement, et la cartographie de tableau vers graphique. ChartCitor surpasse les baselines existantes pour différents types de graphiques. Des études utilisateur qualitatives montrent que ChartCitor aide à accroître la confiance des utilisateurs dans l'IA générative en fournissant une explicabilité améliorée pour la question-réponse assistée par LLM sur les graphiques et permet aux professionnels d'être plus productifs.

English

Large Language Models (LLMs) can perform chart question-answering tasks but often generate unverified hallucinated responses. Existing answer attribution methods struggle to ground responses in source charts due to limited visual-semantic context, complex visual-text alignment requirements, and difficulties in bounding box prediction across complex layouts. We present ChartCitor, a multi-agent framework that provides fine-grained bounding box citations by identifying supporting evidence within chart images. The system orchestrates LLM agents to perform chart-to-table extraction, answer reformulation, table augmentation, evidence retrieval through pre-filtering and re-ranking, and table-to-chart mapping. ChartCitor outperforms existing baselines across different chart types. Qualitative user studies show that ChartCitor helps increase user trust in Generative AI by providing enhanced explainability for LLM-assisted chart QA and enables professionals to be more productive.

ChartCitor : Cadre Multi-Agent pour l'Attribution Visuelle Fine des Graphiques

ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution

papers.abstract

Support