ChatPaper.aiChatPaper

Análise de Documentos Revelada: Técnicas, Desafios e Perspectivas para Extração de Informações Estruturadas

Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

October 28, 2024
Autores: Qintong Zhang, Victor Shea-Jay Huang, Bin Wang, Junyuan Zhang, Zhengren Wang, Hao Liang, Shawn Wang, Matthieu Lin, Wentao Zhang, Conghui He
cs.AI

Resumo

A análise de documentos é essencial para converter documentos não estruturados e semi-estruturados - como contratos, trabalhos acadêmicos e faturas - em dados estruturados e legíveis por máquina. A análise de documentos extrai dados estruturados confiáveis a partir de entradas não estruturadas, proporcionando grande conveniência para inúmeras aplicações. Especialmente com os recentes avanços em Modelos de Linguagem de Grande Escala, a análise de documentos desempenha um papel indispensável tanto na construção de bases de conhecimento quanto na geração de dados de treinamento. Esta pesquisa apresenta uma revisão abrangente do estado atual da análise de documentos, abrangendo metodologias-chave, desde sistemas de pipeline modulares até modelos ponta a ponta impulsionados por grandes modelos de visão e linguagem. Componentes principais como detecção de layout, extração de conteúdo (incluindo texto, tabelas e expressões matemáticas) e integração de dados multimodais são examinados em detalhes. Além disso, este artigo discute os desafios enfrentados por sistemas modulares de análise de documentos e modelos de visão e linguagem no tratamento de layouts complexos, na integração de múltiplos módulos e no reconhecimento de texto de alta densidade. Ele enfatiza a importância do desenvolvimento de conjuntos de dados maiores e mais diversos e delineia as direções futuras de pesquisa.
English
Document parsing is essential for converting unstructured and semi-structured documents-such as contracts, academic papers, and invoices-into structured, machine-readable data. Document parsing extract reliable structured data from unstructured inputs, providing huge convenience for numerous applications. Especially with recent achievements in Large Language Models, document parsing plays an indispensable role in both knowledge base construction and training data generation. This survey presents a comprehensive review of the current state of document parsing, covering key methodologies, from modular pipeline systems to end-to-end models driven by large vision-language models. Core components such as layout detection, content extraction (including text, tables, and mathematical expressions), and multi-modal data integration are examined in detail. Additionally, this paper discusses the challenges faced by modular document parsing systems and vision-language models in handling complex layouts, integrating multiple modules, and recognizing high-density text. It emphasizes the importance of developing larger and more diverse datasets and outlines future research directions.

Summary

AI-Generated Summary

PDF313November 16, 2024