MinerU : Une solution open source pour l'extraction précise de contenu de documents
MinerU: An Open-Source Solution for Precise Document Content Extraction
September 27, 2024
Auteurs: Bin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He
cs.AI
Résumé
L'analyse de contenu de documents est un domaine de recherche crucial en vision par ordinateur. Malgré les avancées significatives dans des méthodes telles que la ROC, la détection de mise en page et la reconnaissance de formules, les solutions open source existantes peinent à fournir de manière cohérente une extraction de contenu de haute qualité en raison de la diversité des types de documents et de leur contenu. Pour relever ces défis, nous présentons MinerU, une solution open source pour une extraction de contenu de document de haute précision. MinerU exploite les modèles sophistiqués de PDF-Extract-Kit pour extraire efficacement le contenu de divers documents et utilise des règles de prétraitement et de post-traitement finement ajustées pour garantir l'exactitude des résultats finaux. Les résultats expérimentaux montrent que MinerU atteint systématiquement des performances élevées sur différents types de documents, améliorant significativement la qualité et la cohérence de l'extraction de contenu. Le projet open source MinerU est disponible sur https://github.com/opendatalab/MinerU.
English
Document content analysis has been a crucial research area in computer
vision. Despite significant advancements in methods such as OCR, layout
detection, and formula recognition, existing open-source solutions struggle to
consistently deliver high-quality content extraction due to the diversity in
document types and content. To address these challenges, we present MinerU, an
open-source solution for high-precision document content extraction. MinerU
leverages the sophisticated PDF-Extract-Kit models to extract content from
diverse documents effectively and employs finely-tuned preprocessing and
postprocessing rules to ensure the accuracy of the final results. Experimental
results demonstrate that MinerU consistently achieves high performance across
various document types, significantly enhancing the quality and consistency of
content extraction. The MinerU open-source project is available at
https://github.com/opendatalab/MinerU.Summary
AI-Generated Summary