ChartLens: Attribuzione Visiva Fine-Grana nei Grafici

Abstract

Le crescenti capacità dei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto progredire compiti come la comprensione dei grafici. Tuttavia, questi modelli spesso soffrono di allucinazioni, in cui le sequenze di testo generate sono in conflitto con i dati visivi forniti. Per affrontare questo problema, introduciamo l'Attribuzione Visiva Post-Hoc per i Grafici, che identifica elementi granulari del grafico che convalidano una determinata risposta associata al grafico. Proponiamo ChartLens, un innovativo algoritmo di attribuzione per grafici che utilizza tecniche basate sulla segmentazione per identificare gli oggetti del grafico e impiega il prompting a set-of-marks con MLLM per un'attribuzione visiva granulare. Inoltre, presentiamo ChartVA-Eval, un benchmark con grafici sintetici e del mondo reale provenienti da diversi ambiti come finanza, politica ed economia, caratterizzato da annotazioni di attribuzione granulari. Le nostre valutazioni dimostrano che ChartLens migliora le attribuzioni granulari del 26-66%.

English

The growing capabilities of multimodal large language models (MLLMs) have advanced tasks like chart understanding. However, these models often suffer from hallucinations, where generated text sequences conflict with the provided visual data. To address this, we introduce Post-Hoc Visual Attribution for Charts, which identifies fine-grained chart elements that validate a given chart-associated response. We propose ChartLens, a novel chart attribution algorithm that uses segmentation-based techniques to identify chart objects and employs set-of-marks prompting with MLLMs for fine-grained visual attribution. Additionally, we present ChartVA-Eval, a benchmark with synthetic and real-world charts from diverse domains like finance, policy, and economics, featuring fine-grained attribution annotations. Our evaluations show that ChartLens improves fine-grained attributions by 26-66%.

ChartLens: Attribuzione Visiva Fine-Grana nei Grafici

ChartLens: Fine-grained Visual Attribution in Charts

Abstract

Support