ChatPaper.aiChatPaper

ChartCap: Mitigazione dell'allucinazione nella generazione di didascalie per grafici densi

ChartCap: Mitigating Hallucination of Dense Chart Captioning

August 5, 2025
Autori: Junyoung Lim, Jaewoo Ahn, Gunhee Kim
cs.AI

Abstract

Generare didascalie accurate, informative e prive di allucinazioni per i grafici rimane una sfida per i modelli linguistici visivi, principalmente a causa della mancanza di dataset su larga scala e di alta qualità relativi a grafici del mondo reale. Tuttavia, i dataset esistenti di grafici reali presentano problemi come l'inclusione di informazioni estranee che non possono essere dedotte dal grafico e la mancata cattura sufficiente degli elementi strutturali e delle intuizioni chiave. Pertanto, introduciamo ChartCap, un dataset su larga scala composto da 565K immagini di grafici reali accoppiate a didascalie dense specifiche per tipo, che escludono informazioni estranee e mettono in evidenza sia gli elementi strutturali che le intuizioni chiave in dettaglio. Per costruire ChartCap, abbiamo progettato una pipeline in quattro fasi che genera didascalie utilizzando solo i dati discernibili dal grafico e abbiamo impiegato una verifica umana basata sulla coerenza ciclica, che accelera il controllo di qualità senza sacrificare l'accuratezza. Inoltre, proponiamo una nuova metrica, il Visual Consistency Score, che valuta la qualità delle didascalie misurando la somiglianza tra il grafico rigenerato da una didascalia e il grafico originale, indipendentemente dalle didascalie di riferimento. Esperimenti estensivi confermano che i modelli addestrati su ChartCap generano costantemente didascalie più accurate e informative con ridotte allucinazioni, superando sia i modelli open-source che quelli proprietari e persino le didascalie annotate manualmente.
English
Generating accurate, informative, and hallucination-free captions for charts remains challenging for vision language models, primarily due to the lack of large-scale, high-quality datasets of real-world charts. However, existing real-world chart datasets suffer from the inclusion of extraneous information that cannot be inferred from the chart and failure to sufficiently capture structural elements and key insights. Therefore, we introduce ChartCap, a large-scale dataset of 565K real-world chart images paired with type-specific, dense captions that exclude extraneous information and highlight both structural elements and key insights in detail. To build ChartCap, we design a four-stage pipeline that generates captions using only the discernible data from the chart and employ a cycle consistency-based human verification, which accelerates quality control without sacrificing accuracy. Additionally, we propose a novel metric, the Visual Consistency Score, which evaluates caption quality by measuring the similarity between the chart regenerated from a caption and the original chart, independent of reference captions. Extensive experiments confirms that models fine-tuned on ChartCap consistently generate more accurate and informative captions with reduced hallucinations, surpassing both open-source and proprietary models and even human-annotated captions.
PDF62August 6, 2025