SynFinTabs: Un conjunto de datos de tablas financieras sintéticas para extracción de información y tablas
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction
December 5, 2024
Autores: Ethan Bradley, Muhammad Roman, Karen Rafferty, Barry Devereux
cs.AI
Resumen
La extracción de tablas de imágenes de documentos es un desafiante problema de IA, y obtener datos etiquetados para muchos dominios de contenido resulta complicado. Los conjuntos de datos existentes para la extracción de tablas suelen centrarse en tablas científicas debido a la gran cantidad de artículos académicos disponibles, junto con su código fuente. Sin embargo, existen diferencias significativas en el diseño y la tipografía entre las tablas de ámbitos científicos, financieros y otros. Los conjuntos de datos actuales a menudo carecen de las palabras y sus posiciones contenidas en las tablas, en su lugar, dependen de OCR poco confiable para extraer estas características y entrenar modelos modernos de aprendizaje automático en tareas de procesamiento del lenguaje natural. Por lo tanto, se requiere un método más general para obtener datos etiquetados. Presentamos SynFinTabs, un conjunto de datos etiquetado a gran escala de tablas financieras sintéticas. Esperamos que nuestro método de generación de estas tablas sintéticas sea transferible a otros dominios. Para demostrar la efectividad de nuestro conjunto de datos en el entrenamiento de modelos para extraer información de imágenes de tablas, creamos FinTabQA, un gran modelo de lenguaje de diseño entrenado en una tarea extractiva de pregunta-respuesta. Probamos nuestro modelo utilizando tablas financieras del mundo real y lo comparamos con un modelo generativo de última generación, discutiendo los resultados. Ponemos a disposición públicamente el conjunto de datos, el modelo y el código de generación del conjunto de datos.
English
Table extraction from document images is a challenging AI problem, and
labelled data for many content domains is difficult to come by. Existing table
extraction datasets often focus on scientific tables due to the vast amount of
academic articles that are readily available, along with their source code.
However, there are significant layout and typographical differences between
tables found across scientific, financial, and other domains. Current datasets
often lack the words, and their positions, contained within the tables, instead
relying on unreliable OCR to extract these features for training modern machine
learning models on natural language processing tasks. Therefore, there is a
need for a more general method of obtaining labelled data. We present
SynFinTabs, a large-scale, labelled dataset of synthetic financial tables. Our
hope is that our method of generating these synthetic tables is transferable to
other domains. To demonstrate the effectiveness of our dataset in training
models to extract information from table images, we create FinTabQA, a layout
large language model trained on an extractive question-answering task. We test
our model using real-world financial tables and compare it to a
state-of-the-art generative model and discuss the results. We make the dataset,
model, and dataset generation code publicly available.Summary
AI-Generated Summary