ChatPaper.aiChatPaper

SynFinTabs: Ein Datensatz synthetischer Finanztabellen für die Informationsextraktion und Tabellenerfassung

SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction

December 5, 2024
Autoren: Ethan Bradley, Muhammad Roman, Karen Rafferty, Barry Devereux
cs.AI

Zusammenfassung

Die Extraktion von Tabellen aus Dokumentenbildern ist ein herausforderndes KI-Problem, und markierte Daten für viele Inhaltsbereiche sind schwer zu bekommen. Bestehende Tabellenextraktionsdatensätze konzentrieren sich oft auf wissenschaftliche Tabellen aufgrund der großen Menge an wissenschaftlichen Artikeln, die leicht verfügbar sind, zusammen mit ihrem Quellcode. Es gibt jedoch erhebliche Layout- und typografische Unterschiede zwischen Tabellen in wissenschaftlichen, finanziellen und anderen Bereichen. Aktuelle Datensätze enthalten oft nicht die Wörter und ihre Positionen innerhalb der Tabellen, sondern verlassen sich stattdessen auf unzuverlässige OCR, um diese Merkmale zur Schulung moderner maschineller Lernmodelle für Aufgaben der natürlichen Sprachverarbeitung zu extrahieren. Daher besteht Bedarf an einer allgemeineren Methode zur Beschaffung von markierten Daten. Wir stellen SynFinTabs vor, einen groß angelegten, markierten Datensatz synthetischer Finanztabellen. Wir hoffen, dass unsere Methode zur Generierung dieser synthetischen Tabellen auf andere Bereiche übertragbar ist. Um die Wirksamkeit unseres Datensatzes beim Training von Modellen zur Extraktion von Informationen aus Tabellenbildern zu demonstrieren, erstellen wir FinTabQA, ein großes Sprachmodell, das auf einer extraktiven Frage-Antwort-Aufgabe trainiert ist. Wir testen unser Modell anhand von Finanztabellen aus der realen Welt, vergleichen es mit einem State-of-the-Art-generativen Modell und diskutieren die Ergebnisse. Wir stellen den Datensatz, das Modell und den Code zur Datensatzerzeugung öffentlich zur Verfügung.
English
Table extraction from document images is a challenging AI problem, and labelled data for many content domains is difficult to come by. Existing table extraction datasets often focus on scientific tables due to the vast amount of academic articles that are readily available, along with their source code. However, there are significant layout and typographical differences between tables found across scientific, financial, and other domains. Current datasets often lack the words, and their positions, contained within the tables, instead relying on unreliable OCR to extract these features for training modern machine learning models on natural language processing tasks. Therefore, there is a need for a more general method of obtaining labelled data. We present SynFinTabs, a large-scale, labelled dataset of synthetic financial tables. Our hope is that our method of generating these synthetic tables is transferable to other domains. To demonstrate the effectiveness of our dataset in training models to extract information from table images, we create FinTabQA, a layout large language model trained on an extractive question-answering task. We test our model using real-world financial tables and compare it to a state-of-the-art generative model and discuss the results. We make the dataset, model, and dataset generation code publicly available.

Summary

AI-Generated Summary

PDF52December 6, 2024