ChatPaper.aiChatPaper

DocLayout-YOLO: Verbesserung der Dokumentenlayoutanalyse durch vielfältige synthetische Daten und globale bis lokale adaptive Wahrnehmung

DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

October 16, 2024
Autoren: Zhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He
cs.AI

Zusammenfassung

Die Layout-Analyse von Dokumenten ist entscheidend für Systeme zur Dokumentenverarbeitung in der realen Welt, stößt jedoch auf einen herausfordernden Kompromiss zwischen Geschwindigkeit und Genauigkeit: Multimodale Methoden, die sowohl Text- als auch visuelle Merkmale nutzen, erzielen eine höhere Genauigkeit, leiden jedoch unter signifikanter Latenz, während unimodale Methoden, die ausschließlich auf visuellen Merkmalen beruhen, schnellere Verarbeitungsgeschwindigkeiten aufweisen, jedoch auf Kosten der Genauigkeit. Um dieses Dilemma anzugehen, stellen wir DocLayout-YOLO vor, einen neuartigen Ansatz, der die Genauigkeit verbessert, während er Geschwindigkeitsvorteile durch dokumentenspezifische Optimierungen sowohl im Pre-Training als auch im Modellentwurf beibehält. Für ein robustes Dokumenten-Pre-Training führen wir den Mesh-candidate BestFit-Algorithmus ein, der die Dokumentsynthese als ein zweidimensionales Behälterpackungsproblem darstellt und den umfangreichen und vielfältigen DocSynth-300K-Datensatz generiert. Das Pre-Training auf dem resultierenden DocSynth-300K-Datensatz verbessert die Feinabstimmungsleistung signifikant für verschiedene Dokumententypen. In Bezug auf die Modelloptimierung schlagen wir ein Global-to-Local Controllable Receptive Module vor, das in der Lage ist, mehrskalige Variationen von Dokumentenelementen besser zu handhaben. Darüber hinaus führen wir zur Validierung der Leistung über verschiedene Dokumententypen hinweg einen komplexen und anspruchsvollen Benchmark namens DocStructBench ein. Umfangreiche Experimente mit nachgelagerten Datensätzen zeigen, dass DocLayout-YOLO sowohl in Bezug auf Geschwindigkeit als auch Genauigkeit hervorragende Leistungen erbringt. Der Code, die Daten und die Modelle sind unter https://github.com/opendatalab/DocLayout-YOLO verfügbar.
English
Document Layout Analysis is crucial for real-world document understanding systems, but it encounters a challenging trade-off between speed and accuracy: multimodal methods leveraging both text and visual features achieve higher accuracy but suffer from significant latency, whereas unimodal methods relying solely on visual features offer faster processing speeds at the expense of accuracy. To address this dilemma, we introduce DocLayout-YOLO, a novel approach that enhances accuracy while maintaining speed advantages through document-specific optimizations in both pre-training and model design. For robust document pre-training, we introduce the Mesh-candidate BestFit algorithm, which frames document synthesis as a two-dimensional bin packing problem, generating the large-scale, diverse DocSynth-300K dataset. Pre-training on the resulting DocSynth-300K dataset significantly improves fine-tuning performance across various document types. In terms of model optimization, we propose a Global-to-Local Controllable Receptive Module that is capable of better handling multi-scale variations of document elements. Furthermore, to validate performance across different document types, we introduce a complex and challenging benchmark named DocStructBench. Extensive experiments on downstream datasets demonstrate that DocLayout-YOLO excels in both speed and accuracy. Code, data, and models are available at https://github.com/opendatalab/DocLayout-YOLO.

Summary

AI-Generated Summary

PDF382November 16, 2024