ChatPaper.aiChatPaper

SynFinTabs : Un ensemble de données de tables financières synthétiques pour l'extraction d'informations et de tables

SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction

December 5, 2024
Auteurs: Ethan Bradley, Muhammad Roman, Karen Rafferty, Barry Devereux
cs.AI

Résumé

L'extraction de table à partir d'images de documents est un problème complexe en IA, et les données étiquetées pour de nombreux domaines de contenu sont difficiles à obtenir. Les ensembles de données d'extraction de table existants se concentrent souvent sur les tables scientifiques en raison de la grande quantité d'articles académiques facilement disponibles, ainsi que de leur code source. Cependant, il existe des différences significatives de mise en page et de typographie entre les tables trouvées dans les domaines scientifiques, financiers et autres. Les ensembles de données actuels manquent souvent des mots et de leurs positions contenus dans les tables, en se reposant plutôt sur une OCR peu fiable pour extraire ces caractéristiques afin d'entraîner des modèles d'apprentissage automatique modernes sur des tâches de traitement du langage naturel. Par conséquent, il est nécessaire de disposer d'une méthode plus générale pour obtenir des données étiquetées. Nous présentons SynFinTabs, un ensemble de données étiquetées à grande échelle de tables financières synthétiques. Nous espérons que notre méthode de génération de ces tables synthétiques est transférable à d'autres domaines. Pour démontrer l'efficacité de notre ensemble de données dans la formation de modèles pour extraire des informations à partir d'images de table, nous créons FinTabQA, un grand modèle de langage de mise en page entraîné sur une tâche d'extraction de questions-réponses. Nous testons notre modèle en utilisant des tables financières du monde réel, le comparons à un modèle génératif de pointe et discutons des résultats. Nous mettons l'ensemble de données, le modèle et le code de génération d'ensemble de données à disposition du public.
English
Table extraction from document images is a challenging AI problem, and labelled data for many content domains is difficult to come by. Existing table extraction datasets often focus on scientific tables due to the vast amount of academic articles that are readily available, along with their source code. However, there are significant layout and typographical differences between tables found across scientific, financial, and other domains. Current datasets often lack the words, and their positions, contained within the tables, instead relying on unreliable OCR to extract these features for training modern machine learning models on natural language processing tasks. Therefore, there is a need for a more general method of obtaining labelled data. We present SynFinTabs, a large-scale, labelled dataset of synthetic financial tables. Our hope is that our method of generating these synthetic tables is transferable to other domains. To demonstrate the effectiveness of our dataset in training models to extract information from table images, we create FinTabQA, a layout large language model trained on an extractive question-answering task. We test our model using real-world financial tables and compare it to a state-of-the-art generative model and discuss the results. We make the dataset, model, and dataset generation code publicly available.

Summary

AI-Generated Summary

PDF52December 6, 2024