Разбор документов раскрывается: техники, вызовы и перспективы структурированного извлечения информации.
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction
October 28, 2024
Авторы: Qintong Zhang, Victor Shea-Jay Huang, Bin Wang, Junyuan Zhang, Zhengren Wang, Hao Liang, Shawn Wang, Matthieu Lin, Wentao Zhang, Conghui He
cs.AI
Аннотация
Парсинг документов является неотъемлемым процессом для преобразования неструктурированных и полуструктурированных документов, таких как контракты, научные статьи и счета, в структурированные данные, пригодные для обработки машинами. Парсинг документов извлекает надежные структурированные данные из неструктурированных входных данных, обеспечивая огромное удобство для множества приложений. Особенно с недавними достижениями в области крупных языковых моделей, парсинг документов играет неотъемлемую роль как в построении базы знаний, так и в генерации обучающих данных. В данном обзоре представлено всестороннее рассмотрение текущего состояния парсинга документов, охватывающее ключевые методологии, от модульных систем конвейеров до моделей end-to-end, основанных на крупных моделях видео-языка. Основные компоненты, такие как обнаружение макета, извлечение содержимого (включая текст, таблицы и математические выражения) и интеграция мультимодальных данных, рассматриваются подробно. Кроме того, в данной статье обсуждаются проблемы, с которыми сталкиваются модульные системы парсинга документов и модели видео-языка при работе с сложными макетами, интеграции нескольких модулей и распознавании текста высокой плотности. Особое внимание уделяется важности разработки более крупных и разнообразных наборов данных и намечаются направления для будущих исследований.
English
Document parsing is essential for converting unstructured and semi-structured
documents-such as contracts, academic papers, and invoices-into structured,
machine-readable data. Document parsing extract reliable structured data from
unstructured inputs, providing huge convenience for numerous applications.
Especially with recent achievements in Large Language Models, document parsing
plays an indispensable role in both knowledge base construction and training
data generation. This survey presents a comprehensive review of the current
state of document parsing, covering key methodologies, from modular pipeline
systems to end-to-end models driven by large vision-language models. Core
components such as layout detection, content extraction (including text,
tables, and mathematical expressions), and multi-modal data integration are
examined in detail. Additionally, this paper discusses the challenges faced by
modular document parsing systems and vision-language models in handling complex
layouts, integrating multiple modules, and recognizing high-density text. It
emphasizes the importance of developing larger and more diverse datasets and
outlines future research directions.Summary
AI-Generated Summary