MinerU: Een Open-Source Oplossing voor Nauwkeurige Extractie van Documentinhoud
MinerU: An Open-Source Solution for Precise Document Content Extraction
September 27, 2024
Auteurs: Bin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He
cs.AI
Samenvatting
Documentinhoudsanalyse is een cruciaal onderzoeksgebied in de computervisie. Ondanks significante vooruitgang in methoden zoals OCR, lay-outdetectie en formuleherkenning, hebben bestaande open-source oplossingen moeite om consequent hoogwaardige inhoudsextractie te leveren vanwege de diversiteit in documenttypen en -inhoud. Om deze uitdagingen aan te pakken, presenteren we MinerU, een open-source oplossing voor hoogwaardige documentinhoudsextractie. MinerU maakt gebruik van geavanceerde PDF-Extract-Kit modellen om effectief inhoud uit diverse documenten te extraheren en past nauwkeurig afgestemde voorverwerkings- en nabewerkingsregels toe om de nauwkeurigheid van de uiteindelijke resultaten te waarborgen. Experimentele resultaten tonen aan dat MinerU consequent hoge prestaties behaalt over verschillende soorten documenten, waardoor de kwaliteit en consistentie van de inhoudsextractie aanzienlijk worden verbeterd. Het open-source project MinerU is beschikbaar op https://github.com/opendatalab/MinerU.
English
Document content analysis has been a crucial research area in computer
vision. Despite significant advancements in methods such as OCR, layout
detection, and formula recognition, existing open-source solutions struggle to
consistently deliver high-quality content extraction due to the diversity in
document types and content. To address these challenges, we present MinerU, an
open-source solution for high-precision document content extraction. MinerU
leverages the sophisticated PDF-Extract-Kit models to extract content from
diverse documents effectively and employs finely-tuned preprocessing and
postprocessing rules to ensure the accuracy of the final results. Experimental
results demonstrate that MinerU consistently achieves high performance across
various document types, significantly enhancing the quality and consistency of
content extraction. The MinerU open-source project is available at
https://github.com/opendatalab/MinerU.Summary
AI-Generated Summary