ChatPaper.aiChatPaper

MinerU: Открытое решение для точного извлечения содержимого документов.

MinerU: An Open-Source Solution for Precise Document Content Extraction

September 27, 2024
Авторы: Bin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He
cs.AI

Аннотация

Анализ содержимого документов является ключевой областью исследований в компьютерном зрении. Несмотря на значительные достижения в методах, таких как OCR, обнаружение макета и распознавание формул, существующие решения с открытым исходным кодом испытывают трудности с обеспечением последовательного извлечения контента высокого качества из-за разнообразия типов документов и их содержания. Для решения этих проблем мы представляем MinerU, решение с открытым исходным кодом для точного извлечения содержимого документов. MinerU использует сложные модели PDF-Extract-Kit для эффективного извлечения контента из разнообразных документов и применяет тщательно настроенные правила предварительной и последующей обработки, чтобы обеспечить точность конечных результатов. Экспериментальные результаты показывают, что MinerU последовательно достигает высокой производительности на различных типах документов, значительно улучшая качество и последовательность извлечения контента. Проект с открытым исходным кодом MinerU доступен по адресу https://github.com/opendatalab/MinerU.
English
Document content analysis has been a crucial research area in computer vision. Despite significant advancements in methods such as OCR, layout detection, and formula recognition, existing open-source solutions struggle to consistently deliver high-quality content extraction due to the diversity in document types and content. To address these challenges, we present MinerU, an open-source solution for high-precision document content extraction. MinerU leverages the sophisticated PDF-Extract-Kit models to extract content from diverse documents effectively and employs finely-tuned preprocessing and postprocessing rules to ensure the accuracy of the final results. Experimental results demonstrate that MinerU consistently achieves high performance across various document types, significantly enhancing the quality and consistency of content extraction. The MinerU open-source project is available at https://github.com/opendatalab/MinerU.

Summary

AI-Generated Summary

PDF284November 16, 2024