ChatPaper.aiChatPaper

ChartCap: 高密度チャートキャプション生成における幻覚の軽減

ChartCap: Mitigating Hallucination of Dense Chart Captioning

August 5, 2025
著者: Junyoung Lim, Jaewoo Ahn, Gunhee Kim
cs.AI

要旨

正確で情報量が多く、幻覚的要素のないチャートのキャプションを生成することは、視覚言語モデルにとって依然として課題であり、その主な理由は大規模で高品質な実世界のチャートデータセットの不足にある。しかし、既存の実世界のチャートデータセットは、チャートから推測できない余分な情報を含んでいたり、構造的要素や重要な洞察を十分に捉えられていないという問題を抱えている。そこで、本論文ではChartCapを紹介する。これは56万5千枚の実世界のチャート画像と、余分な情報を排除し、構造的要素と重要な洞察を詳細に強調したタイプ固有の密なキャプションをペアにした大規模データセットである。ChartCapを構築するために、チャートから識別可能なデータのみを使用してキャプションを生成する4段階のパイプラインを設計し、サイクル一貫性に基づく人間による検証を採用することで、精度を犠牲にすることなく品質管理を加速した。さらに、参照キャプションに依存せず、キャプションから再生成されたチャートと元のチャートの類似性を測定することでキャプションの品質を評価する新しい指標、Visual Consistency Scoreを提案する。大規模な実験により、ChartCapでファインチューニングされたモデルは、オープンソースおよびプロプライエタリモデルを上回り、人間による注釈付きキャプションさえも凌駕する、より正確で情報量が多く、幻覚的要素の少ないキャプションを一貫して生成することが確認された。
English
Generating accurate, informative, and hallucination-free captions for charts remains challenging for vision language models, primarily due to the lack of large-scale, high-quality datasets of real-world charts. However, existing real-world chart datasets suffer from the inclusion of extraneous information that cannot be inferred from the chart and failure to sufficiently capture structural elements and key insights. Therefore, we introduce ChartCap, a large-scale dataset of 565K real-world chart images paired with type-specific, dense captions that exclude extraneous information and highlight both structural elements and key insights in detail. To build ChartCap, we design a four-stage pipeline that generates captions using only the discernible data from the chart and employ a cycle consistency-based human verification, which accelerates quality control without sacrificing accuracy. Additionally, we propose a novel metric, the Visual Consistency Score, which evaluates caption quality by measuring the similarity between the chart regenerated from a caption and the original chart, independent of reference captions. Extensive experiments confirms that models fine-tuned on ChartCap consistently generate more accurate and informative captions with reduced hallucinations, surpassing both open-source and proprietary models and even human-annotated captions.
PDF32August 6, 2025