MinerU: 正確な文書コンテンツ抽出のためのオープンソースソリューション
MinerU: An Open-Source Solution for Precise Document Content Extraction
September 27, 2024
著者: Bin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He
cs.AI
要旨
コンピュータビジョンにおける文書内容解析は重要な研究分野となっています。OCRやレイアウト検出、数式認識などの手法の大幅な進歩があるにもかかわらず、既存のオープンソースソリューションは、文書タイプや内容の多様性により高品質な内容抽出を一貫して提供することに苦労しています。これらの課題に対処するために、高精度な文書内容抽出のためのオープンソースソリューションであるMinerUを提案します。MinerUは、PDF-Extract-Kitモデルを活用してさまざまな文書から効果的にコンテンツを抽出し、細かく調整された前処理および後処理ルールを用いて最終結果の正確性を確保しています。実験結果は、MinerUがさまざまな文書タイプで高いパフォーマンスを一貫して達成し、コンテンツ抽出の品質と一貫性を大幅に向上させていることを示しています。MinerUオープンソースプロジェクトは、https://github.com/opendatalab/MinerU で入手可能です。
English
Document content analysis has been a crucial research area in computer
vision. Despite significant advancements in methods such as OCR, layout
detection, and formula recognition, existing open-source solutions struggle to
consistently deliver high-quality content extraction due to the diversity in
document types and content. To address these challenges, we present MinerU, an
open-source solution for high-precision document content extraction. MinerU
leverages the sophisticated PDF-Extract-Kit models to extract content from
diverse documents effectively and employs finely-tuned preprocessing and
postprocessing rules to ensure the accuracy of the final results. Experimental
results demonstrate that MinerU consistently achieves high performance across
various document types, significantly enhancing the quality and consistency of
content extraction. The MinerU open-source project is available at
https://github.com/opendatalab/MinerU.Summary
AI-Generated Summary