MinerU: Una Solución de Código Abierto para la Extracción Precisa de Contenido de Documentos
MinerU: An Open-Source Solution for Precise Document Content Extraction
September 27, 2024
Autores: Bin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He
cs.AI
Resumen
El análisis de contenido de documentos ha sido un área de investigación crucial en visión por computadora. A pesar de los avances significativos en métodos como OCR, detección de diseño y reconocimiento de fórmulas, las soluciones de código abierto existentes luchan por ofrecer de manera consistente una extracción de contenido de alta calidad debido a la diversidad en los tipos y contenidos de documentos. Para abordar estos desafíos, presentamos MinerU, una solución de código abierto para la extracción de contenido de documentos de alta precisión. MinerU aprovecha los sofisticados modelos de PDF-Extract-Kit para extraer contenido de diversos documentos de manera efectiva y emplea reglas de preprocesamiento y postprocesamiento finamente ajustadas para garantizar la precisión de los resultados finales. Los resultados experimentales demuestran que MinerU logra consistentemente un alto rendimiento en varios tipos de documentos, mejorando significativamente la calidad y consistencia de la extracción de contenido. El proyecto de código abierto MinerU está disponible en https://github.com/opendatalab/MinerU.
English
Document content analysis has been a crucial research area in computer
vision. Despite significant advancements in methods such as OCR, layout
detection, and formula recognition, existing open-source solutions struggle to
consistently deliver high-quality content extraction due to the diversity in
document types and content. To address these challenges, we present MinerU, an
open-source solution for high-precision document content extraction. MinerU
leverages the sophisticated PDF-Extract-Kit models to extract content from
diverse documents effectively and employs finely-tuned preprocessing and
postprocessing rules to ensure the accuracy of the final results. Experimental
results demonstrate that MinerU consistently achieves high performance across
various document types, significantly enhancing the quality and consistency of
content extraction. The MinerU open-source project is available at
https://github.com/opendatalab/MinerU.Summary
AI-Generated Summary