ChatPaper.aiChatPaper

SynFinTabs: Um Conjunto de Dados de Tabelas Financeiras Sintéticas para Extração de Informações e Tabelas

SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction

December 5, 2024
Autores: Ethan Bradley, Muhammad Roman, Karen Rafferty, Barry Devereux
cs.AI

Resumo

A extração de tabelas de imagens de documentos é um problema desafiador em IA, e dados rotulados para muitos domínios de conteúdo são difíceis de obter. Conjuntos de dados existentes de extração de tabelas frequentemente se concentram em tabelas científicas devido à grande quantidade de artigos acadêmicos prontamente disponíveis, juntamente com seus códigos-fonte. No entanto, existem diferenças significativas de layout e tipografia entre tabelas encontradas em domínios científicos, financeiros e outros. Conjuntos de dados atuais frequentemente não incluem as palavras e suas posições contidas nas tabelas, em vez disso, dependem de OCR não confiável para extrair esses recursos para treinar modelos modernos de aprendizado de máquina em tarefas de processamento de linguagem natural. Portanto, há uma necessidade de um método mais geral para obter dados rotulados. Apresentamos o SynFinTabs, um conjunto de dados rotulado em grande escala de tabelas financeiras sintéticas. Esperamos que nosso método de geração dessas tabelas sintéticas seja transferível para outros domínios. Para demonstrar a eficácia de nosso conjunto de dados no treinamento de modelos para extrair informações de imagens de tabelas, criamos o FinTabQA, um grande modelo de linguagem de layout treinado em uma tarefa de pergunta-resposta extrativa. Testamos nosso modelo usando tabelas financeiras do mundo real e o comparamos com um modelo generativo de ponta, discutindo os resultados. Disponibilizamos publicamente o conjunto de dados, o modelo e o código de geração de conjunto de dados.
English
Table extraction from document images is a challenging AI problem, and labelled data for many content domains is difficult to come by. Existing table extraction datasets often focus on scientific tables due to the vast amount of academic articles that are readily available, along with their source code. However, there are significant layout and typographical differences between tables found across scientific, financial, and other domains. Current datasets often lack the words, and their positions, contained within the tables, instead relying on unreliable OCR to extract these features for training modern machine learning models on natural language processing tasks. Therefore, there is a need for a more general method of obtaining labelled data. We present SynFinTabs, a large-scale, labelled dataset of synthetic financial tables. Our hope is that our method of generating these synthetic tables is transferable to other domains. To demonstrate the effectiveness of our dataset in training models to extract information from table images, we create FinTabQA, a layout large language model trained on an extractive question-answering task. We test our model using real-world financial tables and compare it to a state-of-the-art generative model and discuss the results. We make the dataset, model, and dataset generation code publicly available.

Summary

AI-Generated Summary

PDF52December 6, 2024