MinerU: Uma Solução de Código Aberto para Extração Precisa de Conteúdo de Documentos
MinerU: An Open-Source Solution for Precise Document Content Extraction
September 27, 2024
Autores: Bin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He
cs.AI
Resumo
A análise de conteúdo de documentos tem sido uma área de pesquisa crucial em visão computacional. Apesar dos avanços significativos em métodos como OCR, detecção de layout e reconhecimento de fórmulas, as soluções de código aberto existentes lutam para fornecer consistentemente extração de conteúdo de alta qualidade devido à diversidade em tipos e conteúdos de documentos. Para enfrentar esses desafios, apresentamos o MinerU, uma solução de código aberto para extração de conteúdo de documentos de alta precisão. O MinerU utiliza os modelos sofisticados do PDF-Extract-Kit para extrair conteúdo de documentos diversos de forma eficaz e emprega regras de pré-processamento e pós-processamento afinadas para garantir a precisão dos resultados finais. Resultados experimentais demonstram que o MinerU alcança consistentemente alto desempenho em vários tipos de documentos, melhorando significativamente a qualidade e consistência da extração de conteúdo. O projeto de código aberto MinerU está disponível em https://github.com/opendatalab/MinerU.
English
Document content analysis has been a crucial research area in computer
vision. Despite significant advancements in methods such as OCR, layout
detection, and formula recognition, existing open-source solutions struggle to
consistently deliver high-quality content extraction due to the diversity in
document types and content. To address these challenges, we present MinerU, an
open-source solution for high-precision document content extraction. MinerU
leverages the sophisticated PDF-Extract-Kit models to extract content from
diverse documents effectively and employs finely-tuned preprocessing and
postprocessing rules to ensure the accuracy of the final results. Experimental
results demonstrate that MinerU consistently achieves high performance across
various document types, significantly enhancing the quality and consistency of
content extraction. The MinerU open-source project is available at
https://github.com/opendatalab/MinerU.Summary
AI-Generated Summary