SynFinTabs: Een Dataset van Synthetische Financiële Tabellen voor Informatie- en Tabelextractie
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction
December 5, 2024
Auteurs: Ethan Bradley, Muhammad Roman, Karen Rafferty, Barry Devereux
cs.AI
Samenvatting
Het extraheren van tabellen uit documentafbeeldingen is een uitdagend AI-probleem, en gelabelde gegevens voor veel inhoudsdomeinen zijn moeilijk te verkrijgen. Bestaande datasetten voor tabel extractie richten zich vaak op wetenschappelijke tabellen vanwege de grote hoeveelheid academische artikelen die direct beschikbaar zijn, samen met hun broncode. Er zijn echter aanzienlijke verschillen in lay-out en typografie tussen tabellen in wetenschappelijke, financiële en andere domeinen. Huidige datasetten missen vaak de woorden en hun posities binnen de tabellen, en vertrouwen in plaats daarvan op onbetrouwbare OCR om deze kenmerken te extraheren voor het trainen van moderne machine learning modellen voor taken op het gebied van natuurlijke taalverwerking. Daarom is er behoefte aan een meer algemene methode om gelabelde gegevens te verkrijgen. Wij presenteren SynFinTabs, een grootschalige, gelabelde dataset van synthetische financiële tabellen. We hopen dat onze methode om deze synthetische tabellen te genereren overdraagbaar is naar andere domeinen. Om de effectiviteit van onze dataset te demonstreren bij het trainen van modellen om informatie uit tabelafbeeldingen te extraheren, creëren we FinTabQA, een groot taalmodel getraind op een extractieve vraag-en-antwoordtaak. We testen ons model met echte financiële tabellen en vergelijken het met een state-of-the-art generatief model en bespreken de resultaten. Wij stellen de dataset, het model en de code voor het genereren van de dataset openbaar beschikbaar.
English
Table extraction from document images is a challenging AI problem, and
labelled data for many content domains is difficult to come by. Existing table
extraction datasets often focus on scientific tables due to the vast amount of
academic articles that are readily available, along with their source code.
However, there are significant layout and typographical differences between
tables found across scientific, financial, and other domains. Current datasets
often lack the words, and their positions, contained within the tables, instead
relying on unreliable OCR to extract these features for training modern machine
learning models on natural language processing tasks. Therefore, there is a
need for a more general method of obtaining labelled data. We present
SynFinTabs, a large-scale, labelled dataset of synthetic financial tables. Our
hope is that our method of generating these synthetic tables is transferable to
other domains. To demonstrate the effectiveness of our dataset in training
models to extract information from table images, we create FinTabQA, a layout
large language model trained on an extractive question-answering task. We test
our model using real-world financial tables and compare it to a
state-of-the-art generative model and discuss the results. We make the dataset,
model, and dataset generation code publicly available.