ChatPaper.aiChatPaper

MinerU : Une solution open source pour l'extraction précise de contenu de documents

MinerU: An Open-Source Solution for Precise Document Content Extraction

September 27, 2024
Auteurs: Bin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He
cs.AI

Résumé

L'analyse de contenu de documents est un domaine de recherche crucial en vision par ordinateur. Malgré les avancées significatives dans des méthodes telles que la ROC, la détection de mise en page et la reconnaissance de formules, les solutions open source existantes peinent à fournir de manière cohérente une extraction de contenu de haute qualité en raison de la diversité des types de documents et de leur contenu. Pour relever ces défis, nous présentons MinerU, une solution open source pour une extraction de contenu de document de haute précision. MinerU exploite les modèles sophistiqués de PDF-Extract-Kit pour extraire efficacement le contenu de divers documents et utilise des règles de prétraitement et de post-traitement finement ajustées pour garantir l'exactitude des résultats finaux. Les résultats expérimentaux montrent que MinerU atteint systématiquement des performances élevées sur différents types de documents, améliorant significativement la qualité et la cohérence de l'extraction de contenu. Le projet open source MinerU est disponible sur https://github.com/opendatalab/MinerU.
English
Document content analysis has been a crucial research area in computer vision. Despite significant advancements in methods such as OCR, layout detection, and formula recognition, existing open-source solutions struggle to consistently deliver high-quality content extraction due to the diversity in document types and content. To address these challenges, we present MinerU, an open-source solution for high-precision document content extraction. MinerU leverages the sophisticated PDF-Extract-Kit models to extract content from diverse documents effectively and employs finely-tuned preprocessing and postprocessing rules to ensure the accuracy of the final results. Experimental results demonstrate that MinerU consistently achieves high performance across various document types, significantly enhancing the quality and consistency of content extraction. The MinerU open-source project is available at https://github.com/opendatalab/MinerU.

Summary

AI-Generated Summary

PDF284November 16, 2024