Figuras SBS: Figuras de pre-entrenamiento de QA de figuras sintetizadas paso a paso.

Resumen

La creación de un conjunto de datos de preguntas y respuestas sobre figuras a gran escala requiere una cantidad considerable de trabajo, desde la recopilación y selección de figuras hasta la extracción de atributos como texto, números y colores, y la generación de preguntas y respuestas. Aunque los avances recientes en Modelos de Lenguaje con Muy Grandes (LLMs, por sus siglas en inglés) han llevado a esfuerzos para sintetizar figuras, la mayoría de estos se centran principalmente en la generación de preguntas y respuestas. Además, la creación de figuras directamente utilizando LLMs a menudo se enfrenta a problemas como errores de código, figuras de apariencia similar y contenido repetitivo en las figuras. Para abordar este problema, presentamos SBSFigures (Figuras Sintéticas Etapa por Etapa), un conjunto de datos para el pre-entrenamiento de preguntas y respuestas sobre figuras. Nuestro pipeline propuesto permite la creación de figuras de gráficos con anotaciones completas de los datos visualizados y anotaciones densas de preguntas y respuestas sin ningún proceso de anotación manual. Nuestro pipeline etapa por etapa hace posible crear eficientemente figuras de diversos temas y apariencias, minimizando los errores de código. Nuestras SBSFigures demuestran un fuerte efecto de pre-entrenamiento, lo que permite lograr un entrenamiento eficiente con una cantidad limitada de datos reales de gráficos, partiendo de nuestros pesos pre-entrenados.

English

Building a large-scale figure QA dataset requires a considerable amount of work, from gathering and selecting figures to extracting attributes like text, numbers, and colors, and generating QAs. Although recent developments in LLMs have led to efforts to synthesize figures, most of these focus primarily on QA generation. Additionally, creating figures directly using LLMs often encounters issues such as code errors, similar-looking figures, and repetitive content in figures. To address this issue, we present SBSFigures (Stage-by-Stage Synthetic Figures), a dataset for pre-training figure QA. Our proposed pipeline enables the creation of chart figures with complete annotations of the visualized data and dense QA annotations without any manual annotation process. Our stage-by-stage pipeline makes it possible to create diverse topic and appearance figures efficiently while minimizing code errors. Our SBSFigures demonstrate a strong pre-training effect, making it possible to achieve efficient training with a limited amount of real-world chart data starting from our pre-trained weights.