ChartLens: Fijnmazige visuele attributie in grafieken
ChartLens: Fine-grained Visual Attribution in Charts
May 25, 2025
Auteurs: Manan Suri, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi, Dinesh Manocha
cs.AI
Samenvatting
De toenemende capaciteiten van multimodale grote taalmodelen (MLLMs) hebben taken zoals grafiekbegrip verder ontwikkeld. Deze modellen lijden echter vaak aan hallucinaties, waarbij gegenereerde tekstreeksen in conflict zijn met de aangeleverde visuele gegevens. Om dit aan te pakken, introduceren we Post-Hoc Visuele Attributie voor Grafieken, die fijnmazige grafiekelementen identificeert die een gegeven grafiek-geassocieerd antwoord valideren. We stellen ChartLens voor, een nieuw algoritme voor grafiekattributie dat op segmentatie gebaseerde technieken gebruikt om grafiekobjecten te identificeren en set-of-marks prompting met MLLMs inzet voor fijnmazige visuele attributie. Daarnaast presenteren we ChartVA-Eval, een benchmark met synthetische en real-world grafieken uit diverse domeinen zoals financiën, beleid en economie, voorzien van fijnmazige attributieannotaties. Onze evaluaties tonen aan dat ChartLens fijnmazige attributies met 26-66% verbetert.
English
The growing capabilities of multimodal large language models (MLLMs) have
advanced tasks like chart understanding. However, these models often suffer
from hallucinations, where generated text sequences conflict with the provided
visual data. To address this, we introduce Post-Hoc Visual Attribution for
Charts, which identifies fine-grained chart elements that validate a given
chart-associated response. We propose ChartLens, a novel chart attribution
algorithm that uses segmentation-based techniques to identify chart objects and
employs set-of-marks prompting with MLLMs for fine-grained visual attribution.
Additionally, we present ChartVA-Eval, a benchmark with synthetic and
real-world charts from diverse domains like finance, policy, and economics,
featuring fine-grained attribution annotations. Our evaluations show that
ChartLens improves fine-grained attributions by 26-66%.