Цифры SBS: Предварительное обучение вопросно-ответной системы на основе синтезированных изображений этап за этапом.

Аннотация

Построение крупномасштабного набора данных для вопросов и ответов на основе фигур требует значительного объема работы, начиная с сбора и выбора фигур, извлечения атрибутов, таких как текст, числа и цвета, и создания вопросов и ответов. Хотя последние достижения в области языковых моделей с преимущественным вниманием к генерации вопросов и ответов привели к попыткам синтезировать фигуры, большинство из них сосредоточены именно на генерации вопросов и ответов. Кроме того, создание фигур непосредственно с использованием языковых моделей часто сталкивается с проблемами, такими как ошибки в коде, похожие фигуры и повторяющийся контент в фигурах. Для решения этой проблемы мы представляем SBSFigures (Stage-by-Stage Synthetic Figures), набор данных для предварительного обучения в области вопросов и ответов на основе фигур. Наш предложенный конвейер позволяет создавать графические фигуры с полными аннотациями визуализируемых данных и плотными аннотациями вопросов и ответов без какого-либо ручного процесса аннотирования. Наш конвейер поэтапного создания позволяет эффективно создавать разнообразные фигуры по темам и внешнему виду, минимизируя ошибки в коде. Наши SBSFigures демонстрируют сильный эффект предварительного обучения, что позволяет достичь эффективного обучения с ограниченным объемом реальных данных о графиках, начиная с наших предварительно обученных весов.

English

Building a large-scale figure QA dataset requires a considerable amount of work, from gathering and selecting figures to extracting attributes like text, numbers, and colors, and generating QAs. Although recent developments in LLMs have led to efforts to synthesize figures, most of these focus primarily on QA generation. Additionally, creating figures directly using LLMs often encounters issues such as code errors, similar-looking figures, and repetitive content in figures. To address this issue, we present SBSFigures (Stage-by-Stage Synthetic Figures), a dataset for pre-training figure QA. Our proposed pipeline enables the creation of chart figures with complete annotations of the visualized data and dense QA annotations without any manual annotation process. Our stage-by-stage pipeline makes it possible to create diverse topic and appearance figures efficiently while minimizing code errors. Our SBSFigures demonstrate a strong pre-training effect, making it possible to achieve efficient training with a limited amount of real-world chart data starting from our pre-trained weights.