MinerU: Eine Open-Source-Lösung für präzise Extraktion von Dokumenteninhalten
MinerU: An Open-Source Solution for Precise Document Content Extraction
September 27, 2024
Autoren: Bin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He
cs.AI
Zusammenfassung
Die Analyse von Dokumenteninhalten ist ein entscheidender Forschungsbereich in der Computer Vision. Trotz signifikanter Fortschritte bei Methoden wie OCR, Layouterkennung und Formelerkennung haben bestehende Open-Source-Lösungen Schwierigkeiten, eine konsistent hohe Qualität bei der Extraktion von Inhalten aufgrund der Vielfalt an Dokumententypen und -inhalten zu liefern. Um diesen Herausforderungen zu begegnen, präsentieren wir MinerU, eine Open-Source-Lösung für die präzise Extraktion von Dokumenteninhalten. MinerU nutzt die ausgefeilten PDF-Extract-Kit-Modelle, um Inhalte aus verschiedenen Dokumenten effektiv zu extrahieren, und setzt fein abgestimmte Vorverarbeitungs- und Nachverarbeitungsregeln ein, um die Genauigkeit der Endresultate zu gewährleisten. Experimentelle Ergebnisse zeigen, dass MinerU konsistent eine hohe Leistung bei verschiedenen Dokumententypen erzielt und die Qualität und Konsistenz der Inhaltsextraktion signifikant verbessert. Das MinerU Open-Source-Projekt ist unter https://github.com/opendatalab/MinerU verfügbar.
English
Document content analysis has been a crucial research area in computer
vision. Despite significant advancements in methods such as OCR, layout
detection, and formula recognition, existing open-source solutions struggle to
consistently deliver high-quality content extraction due to the diversity in
document types and content. To address these challenges, we present MinerU, an
open-source solution for high-precision document content extraction. MinerU
leverages the sophisticated PDF-Extract-Kit models to extract content from
diverse documents effectively and employs finely-tuned preprocessing and
postprocessing rules to ensure the accuracy of the final results. Experimental
results demonstrate that MinerU consistently achieves high performance across
various document types, significantly enhancing the quality and consistency of
content extraction. The MinerU open-source project is available at
https://github.com/opendatalab/MinerU.Summary
AI-Generated Summary