DocLayout-YOLO: Mejora del Análisis del Diseño de Documentos a través de Datos Sintéticos Diversos y Percepción Adaptativa de Global a Local
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception
October 16, 2024
Autores: Zhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He
cs.AI
Resumen
El Análisis del Diseño de Documentos es crucial para los sistemas de comprensión de documentos del mundo real, pero se enfrenta a un desafiante equilibrio entre velocidad y precisión: los métodos multimodales que aprovechan tanto características de texto como visuales logran una mayor precisión pero sufren de una latencia significativa, mientras que los métodos unimodales que dependen únicamente de características visuales ofrecen velocidades de procesamiento más rápidas a expensas de la precisión. Para abordar este dilema, presentamos DocLayout-YOLO, un enfoque novedoso que mejora la precisión manteniendo ventajas de velocidad a través de optimizaciones específicas para documentos tanto en el pre-entrenamiento como en el diseño del modelo. Para un pre-entrenamiento robusto de documentos, presentamos el algoritmo Mesh-candidate BestFit, que enmarca la síntesis de documentos como un problema de empaquetado de contenedores bidimensional, generando el conjunto de datos DocSynth-300K a gran escala y diverso. El pre-entrenamiento en el conjunto de datos resultante DocSynth-300K mejora significativamente el rendimiento de ajuste fino en varios tipos de documentos. En cuanto a la optimización del modelo, proponemos un Módulo Receptivo Controlable de Global a Local capaz de manejar mejor las variaciones multiescala de los elementos del documento. Además, para validar el rendimiento en diferentes tipos de documentos, presentamos un banco de pruebas complejo y desafiante llamado DocStructBench. Experimentos extensos en conjuntos de datos secundarios demuestran que DocLayout-YOLO destaca tanto en velocidad como en precisión. El código, los datos y los modelos están disponibles en https://github.com/opendatalab/DocLayout-YOLO.
English
Document Layout Analysis is crucial for real-world document understanding
systems, but it encounters a challenging trade-off between speed and accuracy:
multimodal methods leveraging both text and visual features achieve higher
accuracy but suffer from significant latency, whereas unimodal methods relying
solely on visual features offer faster processing speeds at the expense of
accuracy. To address this dilemma, we introduce DocLayout-YOLO, a novel
approach that enhances accuracy while maintaining speed advantages through
document-specific optimizations in both pre-training and model design. For
robust document pre-training, we introduce the Mesh-candidate BestFit
algorithm, which frames document synthesis as a two-dimensional bin packing
problem, generating the large-scale, diverse DocSynth-300K dataset.
Pre-training on the resulting DocSynth-300K dataset significantly improves
fine-tuning performance across various document types. In terms of model
optimization, we propose a Global-to-Local Controllable Receptive Module that
is capable of better handling multi-scale variations of document elements.
Furthermore, to validate performance across different document types, we
introduce a complex and challenging benchmark named DocStructBench. Extensive
experiments on downstream datasets demonstrate that DocLayout-YOLO excels in
both speed and accuracy. Code, data, and models are available at
https://github.com/opendatalab/DocLayout-YOLO.Summary
AI-Generated Summary