ChartGemma: Ajuste Visual de Instrucciones para el Razonamiento de Gráficos en Entornos no Controlados
ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild
July 4, 2024
Autores: Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty
cs.AI
Resumen
Dada la ubicuidad de los gráficos como herramienta de análisis de datos, visualización y toma de decisiones en diversas industrias y ciencias, ha surgido un creciente interés en desarrollar modelos base pre-entrenados, así como modelos ajustados a instrucciones de propósito general para la comprensión y razonamiento de gráficos. Sin embargo, los métodos existentes presentan inconvenientes cruciales en dos ejes críticos que afectan el rendimiento de los modelos de representación de gráficos: están entrenados en datos generados a partir de las tablas de datos subyacentes de los gráficos, ignorando las tendencias visuales y patrones en las imágenes de los gráficos, y utilizan modelos de base visión-lenguaje débilmente alineados para el entrenamiento específico de dominio, limitando su generalización al encontrarse con gráficos en la naturaleza. Abordamos estos inconvenientes importantes e introducimos ChartGemma, un modelo novedoso de comprensión y razonamiento de gráficos desarrollado sobre PaliGemma. En lugar de depender de tablas de datos subyacentes, ChartGemma se entrena en datos de ajuste de instrucciones generados directamente a partir de imágenes de gráficos, capturando así tanto las tendencias de alto nivel como la información visual de bajo nivel de un conjunto diverso de gráficos. Nuestro enfoque simple logra resultados de vanguardia en 5 benchmarks que abarcan la sumarización de gráficos, la respuesta a preguntas y la verificación de hechos, y nuestros estudios cualitativos detallados en gráficos del mundo real muestran que ChartGemma genera resúmenes más realistas y factualmente correctos en comparación con sus contemporáneos. Publicamos el código, los puntos de control del modelo, el conjunto de datos y las demos en https://github.com/vis-nlp/ChartGemma.
English
Given the ubiquity of charts as a data analysis, visualization, and
decision-making tool across industries and sciences, there has been a growing
interest in developing pre-trained foundation models as well as general purpose
instruction-tuned models for chart understanding and reasoning. However,
existing methods suffer crucial drawbacks across two critical axes affecting
the performance of chart representation models: they are trained on data
generated from underlying data tables of the charts, ignoring the visual trends
and patterns in chart images, and use weakly aligned vision-language backbone
models for domain-specific training, limiting their generalizability when
encountering charts in the wild. We address these important drawbacks and
introduce ChartGemma, a novel chart understanding and reasoning model developed
over PaliGemma. Rather than relying on underlying data tables, ChartGemma is
trained on instruction-tuning data generated directly from chart images, thus
capturing both high-level trends and low-level visual information from a
diverse set of charts. Our simple approach achieves state-of-the-art results
across 5 benchmarks spanning chart summarization, question answering, and
fact-checking, and our elaborate qualitative studies on real-world charts show
that ChartGemma generates more realistic and factually correct summaries
compared to its contemporaries. We release the code, model checkpoints,
dataset, and demos at https://github.com/vis-nlp/ChartGemma.Summary
AI-Generated Summary