MinerU: Una Soluzione Open-Source per l'Estrazione Precisa dei Contenuti dei Documenti
MinerU: An Open-Source Solution for Precise Document Content Extraction
September 27, 2024
Autori: Bin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He
cs.AI
Abstract
L'analisi dei contenuti dei documenti è stata un'area di ricerca cruciale nell'ambito della visione artificiale. Nonostante significativi progressi nei metodi come OCR, rilevamento del layout e riconoscimento delle formule, le soluzioni open-source esistenti faticano a fornire in modo coerente un'estrazione di contenuti di alta qualità a causa della diversità nei tipi di documenti e nei contenuti. Per affrontare queste sfide, presentiamo MinerU, una soluzione open-source per l'estrazione di contenuti di documenti ad alta precisione. MinerU sfrutta i sofisticati modelli di PDF-Extract-Kit per estrarre contenuti da documenti diversi in modo efficace e utilizza regole di pre-elaborazione e post-elaborazione accuratamente tarate per garantire l'accuratezza dei risultati finali. I risultati sperimentali dimostrano che MinerU raggiunge in modo coerente alte prestazioni su vari tipi di documenti, migliorando significativamente la qualità e la coerenza dell'estrazione dei contenuti. Il progetto open-source MinerU è disponibile su https://github.com/opendatalab/MinerU.
English
Document content analysis has been a crucial research area in computer
vision. Despite significant advancements in methods such as OCR, layout
detection, and formula recognition, existing open-source solutions struggle to
consistently deliver high-quality content extraction due to the diversity in
document types and content. To address these challenges, we present MinerU, an
open-source solution for high-precision document content extraction. MinerU
leverages the sophisticated PDF-Extract-Kit models to extract content from
diverse documents effectively and employs finely-tuned preprocessing and
postprocessing rules to ensure the accuracy of the final results. Experimental
results demonstrate that MinerU consistently achieves high performance across
various document types, significantly enhancing the quality and consistency of
content extraction. The MinerU open-source project is available at
https://github.com/opendatalab/MinerU.Summary
AI-Generated Summary