ChartCitor: Marco de trabajo multiagente para la atribución visual detallada de gráficos.
ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution
February 3, 2025
Autores: Kanika Goswami, Puneet Mathur, Ryan Rossi, Franck Dernoncourt
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs) pueden realizar tareas de pregunta-respuesta en gráficos, pero a menudo generan respuestas alucinadas no verificadas. Los métodos de atribución de respuestas existentes tienen dificultades para fundamentar las respuestas en los gráficos fuente debido al contexto visual-semántico limitado, los requisitos complejos de alineación visual-texto y las dificultades en la predicción de cuadros delimitadores en disposiciones complejas. Presentamos ChartCitor, un marco multiagente que proporciona citas de cuadros delimitadores detalladas al identificar evidencia de respaldo dentro de imágenes de gráficos. El sistema coordina agentes LLM para realizar extracción de gráfico a tabla, reformulación de respuestas, ampliación de tablas, recuperación de evidencia mediante prefiltrado y reordenamiento, y mapeo de tabla a gráfico. ChartCitor supera a las líneas de base existentes en diferentes tipos de gráficos. Estudios cualitativos de usuarios muestran que ChartCitor ayuda a aumentar la confianza del usuario en la IA Generativa al proporcionar una explicabilidad mejorada para la pregunta-respuesta asistida por LLM en gráficos y permite que los profesionales sean más productivos.
English
Large Language Models (LLMs) can perform chart question-answering tasks but
often generate unverified hallucinated responses. Existing answer attribution
methods struggle to ground responses in source charts due to limited
visual-semantic context, complex visual-text alignment requirements, and
difficulties in bounding box prediction across complex layouts. We present
ChartCitor, a multi-agent framework that provides fine-grained bounding box
citations by identifying supporting evidence within chart images. The system
orchestrates LLM agents to perform chart-to-table extraction, answer
reformulation, table augmentation, evidence retrieval through pre-filtering and
re-ranking, and table-to-chart mapping. ChartCitor outperforms existing
baselines across different chart types. Qualitative user studies show that
ChartCitor helps increase user trust in Generative AI by providing enhanced
explainability for LLM-assisted chart QA and enables professionals to be more
productive.Summary
AI-Generated Summary