ChatPaper.aiChatPaper

DocLayout-YOLO: Miglioramento dell'Analisi del Layout dei Documenti attraverso Dati Sintetici Diversificati e Percezione Adattiva Globale-a-Locale

DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

October 16, 2024
Autori: Zhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He
cs.AI

Abstract

L'analisi del layout del documento è cruciale per i sistemi di comprensione dei documenti del mondo reale, ma si trova di fronte a un difficile compromesso tra velocità e precisione: i metodi multimodali che sfruttano sia le caratteristiche testuali che visive raggiungono una maggiore precisione ma soffrono di un'elevata latenza, mentre i metodi unimodali che si basano esclusivamente sulle caratteristiche visive offrono velocità di elaborazione più veloci a scapito della precisione. Per affrontare questo dilemma, presentiamo DocLayout-YOLO, un nuovo approccio che migliora la precisione pur mantenendo i vantaggi di velocità attraverso ottimizzazioni specifiche del documento sia nella preformazione che nel design del modello. Per una preformazione robusta del documento, introduciamo l'algoritmo Mesh-candidate BestFit, che inquadra la sintesi del documento come un problema di imballaggio bin-dimensionale, generando il dataset DocSynth-300K su larga scala e diversificato. La preformazione sul dataset risultante DocSynth-300K migliora significativamente le prestazioni di messa a punto su vari tipi di documenti. In termini di ottimizzazione del modello, proponiamo un Modulo Reattivo Globale-a-Locale Controllabile che è in grado di gestire meglio le variazioni multi-scala degli elementi del documento. Inoltre, per convalidare le prestazioni su diversi tipi di documenti, introduciamo un benchmark complesso e sfidante chiamato DocStructBench. Estesi esperimenti su dataset derivati dimostrano che DocLayout-YOLO eccelle sia in velocità che in precisione. Codice, dati e modelli sono disponibili su https://github.com/opendatalab/DocLayout-YOLO.
English
Document Layout Analysis is crucial for real-world document understanding systems, but it encounters a challenging trade-off between speed and accuracy: multimodal methods leveraging both text and visual features achieve higher accuracy but suffer from significant latency, whereas unimodal methods relying solely on visual features offer faster processing speeds at the expense of accuracy. To address this dilemma, we introduce DocLayout-YOLO, a novel approach that enhances accuracy while maintaining speed advantages through document-specific optimizations in both pre-training and model design. For robust document pre-training, we introduce the Mesh-candidate BestFit algorithm, which frames document synthesis as a two-dimensional bin packing problem, generating the large-scale, diverse DocSynth-300K dataset. Pre-training on the resulting DocSynth-300K dataset significantly improves fine-tuning performance across various document types. In terms of model optimization, we propose a Global-to-Local Controllable Receptive Module that is capable of better handling multi-scale variations of document elements. Furthermore, to validate performance across different document types, we introduce a complex and challenging benchmark named DocStructBench. Extensive experiments on downstream datasets demonstrate that DocLayout-YOLO excels in both speed and accuracy. Code, data, and models are available at https://github.com/opendatalab/DocLayout-YOLO.

Summary

AI-Generated Summary

PDF382November 16, 2024