SBS-Figure: Vor-Training Abbildungs-Frage-Antwort von Etappe-zu-Etappe synthetisierten Bildern
SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images
December 23, 2024
Autoren: Risa Shinoda, Kuniaki Saito, Shohei Tanaka, Tosho Hirasawa, Yoshitaka Ushiku
cs.AI
Zusammenfassung
Der Aufbau eines umfangreichen Figuren-Frage-Antwort-Datensatzes erfordert eine beträchtliche Menge an Arbeit, angefangen bei der Sammlung und Auswahl von Figuren bis hin zur Extraktion von Attributen wie Text, Zahlen und Farben sowie der Generierung von Fragen und Antworten. Obwohl jüngste Entwicklungen bei großen Sprachmodellen zu Bemühungen geführt haben, Figuren zu synthetisieren, konzentrieren sich die meisten davon hauptsächlich auf die Generierung von Frage-Antwort-Paaren. Darüber hinaus treten bei der direkten Erstellung von Figuren mithilfe von Sprachmodellen häufig Probleme wie Codefehler, ähnlich aussehende Figuren und repetitive Inhalte in den Figuren auf. Um dieses Problem anzugehen, präsentieren wir SBSFigures (Stage-by-Stage Synthetic Figures), einen Datensatz für das Vor-Training von Figuren-Frage-Antwort-Paaren. Unsere vorgeschlagene Pipeline ermöglicht die Erstellung von Diagrammfiguren mit vollständigen Annotationen der visualisierten Daten sowie dichten Frage-Antwort-Annotationen ohne manuellen Annotierungsprozess. Unsere schrittweise Pipeline ermöglicht die effiziente Erstellung vielfältiger Themen- und Erscheinungsfiguren und minimiert dabei Codefehler. Unsere SBSFigures zeigen eine starke Vor-Trainingseffekt, der es ermöglicht, effizientes Training mit einer begrenzten Menge an realen Diagrammdaten zu erreichen, ausgehend von unseren vorab trainierten Gewichten.
English
Building a large-scale figure QA dataset requires a considerable amount of
work, from gathering and selecting figures to extracting attributes like text,
numbers, and colors, and generating QAs. Although recent developments in LLMs
have led to efforts to synthesize figures, most of these focus primarily on QA
generation. Additionally, creating figures directly using LLMs often encounters
issues such as code errors, similar-looking figures, and repetitive content in
figures. To address this issue, we present SBSFigures (Stage-by-Stage Synthetic
Figures), a dataset for pre-training figure QA. Our proposed pipeline enables
the creation of chart figures with complete annotations of the visualized data
and dense QA annotations without any manual annotation process. Our
stage-by-stage pipeline makes it possible to create diverse topic and
appearance figures efficiently while minimizing code errors. Our SBSFigures
demonstrate a strong pre-training effect, making it possible to achieve
efficient training with a limited amount of real-world chart data starting from
our pre-trained weights.Summary
AI-Generated Summary