MinerU : Une solution open source pour l'extraction précise de contenu de documents

Résumé

L'analyse de contenu de documents est un domaine de recherche crucial en vision par ordinateur. Malgré les avancées significatives dans des méthodes telles que la ROC, la détection de mise en page et la reconnaissance de formules, les solutions open source existantes peinent à fournir de manière cohérente une extraction de contenu de haute qualité en raison de la diversité des types de documents et de leur contenu. Pour relever ces défis, nous présentons MinerU, une solution open source pour une extraction de contenu de document de haute précision. MinerU exploite les modèles sophistiqués de PDF-Extract-Kit pour extraire efficacement le contenu de divers documents et utilise des règles de prétraitement et de post-traitement finement ajustées pour garantir l'exactitude des résultats finaux. Les résultats expérimentaux montrent que MinerU atteint systématiquement des performances élevées sur différents types de documents, améliorant significativement la qualité et la cohérence de l'extraction de contenu. Le projet open source MinerU est disponible sur https://github.com/opendatalab/MinerU.

English

Document content analysis has been a crucial research area in computer vision. Despite significant advancements in methods such as OCR, layout detection, and formula recognition, existing open-source solutions struggle to consistently deliver high-quality content extraction due to the diversity in document types and content. To address these challenges, we present MinerU, an open-source solution for high-precision document content extraction. MinerU leverages the sophisticated PDF-Extract-Kit models to extract content from diverse documents effectively and employs finely-tuned preprocessing and postprocessing rules to ensure the accuracy of the final results. Experimental results demonstrate that MinerU consistently achieves high performance across various document types, significantly enhancing the quality and consistency of content extraction. The MinerU open-source project is available at https://github.com/opendatalab/MinerU.