ChartLens: Точная визуальная атрибуция в диаграммах
ChartLens: Fine-grained Visual Attribution in Charts
May 25, 2025
Авторы: Manan Suri, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi, Dinesh Manocha
cs.AI
Аннотация
Растущие возможности мультимодальных больших языковых моделей (MLLMs) способствуют прогрессу в таких задачах, как понимание графиков. Однако эти модели часто страдают от галлюцинаций, когда генерируемые текстовые последовательности противоречат предоставленным визуальным данным. Для решения этой проблемы мы представляем метод Post-Hoc Visual Attribution for Charts, который идентифицирует детализированные элементы графиков, подтверждающие заданный ответ, связанный с графиком. Мы предлагаем ChartLens — новый алгоритм атрибуции графиков, использующий методы сегментации для идентификации объектов на графиках и применяющий подход set-of-marks prompting с MLLMs для детализированной визуальной атрибуции. Кроме того, мы представляем ChartVA-Eval — эталонный набор данных, включающий синтетические и реальные графики из различных областей, таких как финансы, политика и экономика, с детализированными аннотациями атрибуции. Наши оценки показывают, что ChartLens улучшает детализированную атрибуцию на 26–66%.
English
The growing capabilities of multimodal large language models (MLLMs) have
advanced tasks like chart understanding. However, these models often suffer
from hallucinations, where generated text sequences conflict with the provided
visual data. To address this, we introduce Post-Hoc Visual Attribution for
Charts, which identifies fine-grained chart elements that validate a given
chart-associated response. We propose ChartLens, a novel chart attribution
algorithm that uses segmentation-based techniques to identify chart objects and
employs set-of-marks prompting with MLLMs for fine-grained visual attribution.
Additionally, we present ChartVA-Eval, a benchmark with synthetic and
real-world charts from diverse domains like finance, policy, and economics,
featuring fine-grained attribution annotations. Our evaluations show that
ChartLens improves fine-grained attributions by 26-66%.