Analyse de documents révélée : Techniques, Défis et Perspectives pour l'Extraction d'Informations Structurées
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction
October 28, 2024
Auteurs: Qintong Zhang, Victor Shea-Jay Huang, Bin Wang, Junyuan Zhang, Zhengren Wang, Hao Liang, Shawn Wang, Matthieu Lin, Wentao Zhang, Conghui He
cs.AI
Résumé
L'analyse de documents est essentielle pour convertir des documents non structurés et semi-structurés - tels que des contrats, des articles académiques et des factures - en données structurées et exploitables par les machines. L'analyse de documents extrait des données structurées fiables à partir d'entrées non structurées, offrant une grande commodité pour de nombreuses applications. Surtout avec les récentes avancées dans les Grands Modèles de Langage, l'analyse de documents joue un rôle indispensable à la fois dans la construction de bases de connaissances et la génération de données d'entraînement. Cette étude présente une revue complète de l'état actuel de l'analyse de documents, couvrant les méthodologies clés, des systèmes de pipeline modulaires aux modèles de bout en bout pilotés par de grands modèles de vision-langage. Les composants essentiels tels que la détection de mise en page, l'extraction de contenu (y compris le texte, les tableaux et les expressions mathématiques) et l'intégration de données multimodales sont examinés en détail. De plus, cet article discute des défis auxquels sont confrontés les systèmes modulaires d'analyse de documents et les modèles de vision-langage dans la gestion de mises en page complexes, l'intégration de modules multiples et la reconnaissance de textes à haute densité. Il met l'accent sur l'importance du développement de jeux de données plus vastes et plus diversifiés et esquisse les orientations de recherche futures.
English
Document parsing is essential for converting unstructured and semi-structured
documents-such as contracts, academic papers, and invoices-into structured,
machine-readable data. Document parsing extract reliable structured data from
unstructured inputs, providing huge convenience for numerous applications.
Especially with recent achievements in Large Language Models, document parsing
plays an indispensable role in both knowledge base construction and training
data generation. This survey presents a comprehensive review of the current
state of document parsing, covering key methodologies, from modular pipeline
systems to end-to-end models driven by large vision-language models. Core
components such as layout detection, content extraction (including text,
tables, and mathematical expressions), and multi-modal data integration are
examined in detail. Additionally, this paper discusses the challenges faced by
modular document parsing systems and vision-language models in handling complex
layouts, integrating multiple modules, and recognizing high-density text. It
emphasizes the importance of developing larger and more diverse datasets and
outlines future research directions.Summary
AI-Generated Summary