ChatPaper.aiChatPaper

ChartCap: Mitigación de la alucinación en la generación de descripciones densas de gráficos

ChartCap: Mitigating Hallucination of Dense Chart Captioning

August 5, 2025
Autores: Junyoung Lim, Jaewoo Ahn, Gunhee Kim
cs.AI

Resumen

Generar descripciones precisas, informativas y libres de alucinaciones para gráficos sigue siendo un desafío para los modelos de lenguaje visual, principalmente debido a la falta de conjuntos de datos a gran escala y de alta calidad de gráficos del mundo real. Sin embargo, los conjuntos de datos existentes de gráficos del mundo real adolecen de la inclusión de información irrelevante que no puede inferirse del gráfico y de la incapacidad para capturar suficientemente los elementos estructurales y las ideas clave. Por ello, presentamos ChartCap, un conjunto de datos a gran escala de 565K imágenes de gráficos del mundo real, emparejadas con descripciones densas específicas del tipo que excluyen información irrelevante y destacan tanto los elementos estructurales como las ideas clave en detalle. Para construir ChartCap, diseñamos un proceso de cuatro etapas que genera descripciones utilizando únicamente los datos discernibles del gráfico y empleamos una verificación humana basada en consistencia cíclica, lo que acelera el control de calidad sin sacrificar la precisión. Además, proponemos una nueva métrica, el Puntaje de Consistencia Visual, que evalúa la calidad de las descripciones midiendo la similitud entre el gráfico regenerado a partir de una descripción y el gráfico original, independientemente de las descripciones de referencia. Experimentos exhaustivos confirman que los modelos ajustados en ChartCap generan consistentemente descripciones más precisas e informativas con menos alucinaciones, superando tanto a los modelos de código abierto como a los propietarios, e incluso a las descripciones anotadas por humanos.
English
Generating accurate, informative, and hallucination-free captions for charts remains challenging for vision language models, primarily due to the lack of large-scale, high-quality datasets of real-world charts. However, existing real-world chart datasets suffer from the inclusion of extraneous information that cannot be inferred from the chart and failure to sufficiently capture structural elements and key insights. Therefore, we introduce ChartCap, a large-scale dataset of 565K real-world chart images paired with type-specific, dense captions that exclude extraneous information and highlight both structural elements and key insights in detail. To build ChartCap, we design a four-stage pipeline that generates captions using only the discernible data from the chart and employ a cycle consistency-based human verification, which accelerates quality control without sacrificing accuracy. Additionally, we propose a novel metric, the Visual Consistency Score, which evaluates caption quality by measuring the similarity between the chart regenerated from a caption and the original chart, independent of reference captions. Extensive experiments confirms that models fine-tuned on ChartCap consistently generate more accurate and informative captions with reduced hallucinations, surpassing both open-source and proprietary models and even human-annotated captions.
PDF32August 6, 2025