SynFinTabs: Набор данных синтетических финансовых таблиц для извлечения информации и таблиц.
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction
December 5, 2024
Авторы: Ethan Bradley, Muhammad Roman, Karen Rafferty, Barry Devereux
cs.AI
Аннотация
Извлечение таблиц из изображений документов представляет собой сложную проблему искусственного интеллекта, и размеченные данные для многих областей контента трудно найти. Существующие наборы данных для извлечения таблиц часто сосредоточены на научных таблицах из-за огромного количества доступных научных статей, а также их исходного кода. Однако существуют значительные различия в макете и типографике между таблицами, встречающимися в научных, финансовых и других областях. Текущие наборы данных часто не содержат слов и их позиции, находящихся в таблицах, вместо этого они полагаются на ненадежное оптическое распознавание символов для извлечения этих функций для обучения современных моделей машинного обучения на задачах обработки естественного языка. Поэтому существует необходимость в более общем методе получения размеченных данных. Мы представляем SynFinTabs, крупномасштабный размеченный набор данных синтетических финансовых таблиц. Надеемся, что наш метод генерации этих синтетических таблиц может быть применен и в других областях. Для демонстрации эффективности нашего набора данных в обучении моделей извлечения информации из изображений таблиц мы создаем FinTabQA, крупномасштабную языковую модель, обученную на задаче извлекающего вопросно-ответного взаимодействия. Мы тестируем нашу модель, используя реальные финансовые таблицы, сравниваем ее с передовой генеративной моделью и обсуждаем результаты. Мы предоставляем набор данных, модель и код генерации набора данных общественности.
English
Table extraction from document images is a challenging AI problem, and
labelled data for many content domains is difficult to come by. Existing table
extraction datasets often focus on scientific tables due to the vast amount of
academic articles that are readily available, along with their source code.
However, there are significant layout and typographical differences between
tables found across scientific, financial, and other domains. Current datasets
often lack the words, and their positions, contained within the tables, instead
relying on unreliable OCR to extract these features for training modern machine
learning models on natural language processing tasks. Therefore, there is a
need for a more general method of obtaining labelled data. We present
SynFinTabs, a large-scale, labelled dataset of synthetic financial tables. Our
hope is that our method of generating these synthetic tables is transferable to
other domains. To demonstrate the effectiveness of our dataset in training
models to extract information from table images, we create FinTabQA, a layout
large language model trained on an extractive question-answering task. We test
our model using real-world financial tables and compare it to a
state-of-the-art generative model and discuss the results. We make the dataset,
model, and dataset generation code publicly available.Summary
AI-Generated Summary