ChatPaper.aiChatPaper

DocLayout-YOLO: Улучшение анализа макета документа с помощью разнообразных синтетических данных и глобально-локального адаптивного восприятия

DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

October 16, 2024
Авторы: Zhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He
cs.AI

Аннотация

Анализ макета документа является ключевым для систем понимания документов в реальном мире, но сталкивается с трудным компромиссом между скоростью и точностью: мультимодальные методы, использующие как текстовые, так и визуальные особенности, достигают более высокой точности, но страдают от значительной задержки, в то время как унимодальные методы, опирающиеся исключительно на визуальные особенности, обеспечивают более быструю обработку за счет точности. Для решения этой дилеммы мы представляем DocLayout-YOLO, новый подход, который повышает точность, сохраняя преимущества скорости благодаря оптимизациям, специфичным для документов, как в предварительном обучении, так и в конструкции модели. Для надежного предварительного обучения документов мы предлагаем алгоритм Mesh-candidate BestFit, который формулирует синтез документа как задачу двумерной упаковки бинов, создавая крупномасштабный и разнообразный набор данных DocSynth-300K. Предварительное обучение на полученном наборе данных DocSynth-300K значительно улучшает производительность донастройки на различных типах документов. В части оптимизации модели мы предлагаем модуль Global-to-Local Controllable Receptive, способный лучше обрабатывать многошкальные вариации элементов документа. Кроме того, для проверки производительности на различных типах документов мы представляем сложный и вызывающий бенчмарк с названием DocStructBench. Обширные эксперименты на вспомогательных наборах данных показывают, что DocLayout-YOLO превосходит как по скорости, так и по точности. Код, данные и модели доступны на https://github.com/opendatalab/DocLayout-YOLO.
English
Document Layout Analysis is crucial for real-world document understanding systems, but it encounters a challenging trade-off between speed and accuracy: multimodal methods leveraging both text and visual features achieve higher accuracy but suffer from significant latency, whereas unimodal methods relying solely on visual features offer faster processing speeds at the expense of accuracy. To address this dilemma, we introduce DocLayout-YOLO, a novel approach that enhances accuracy while maintaining speed advantages through document-specific optimizations in both pre-training and model design. For robust document pre-training, we introduce the Mesh-candidate BestFit algorithm, which frames document synthesis as a two-dimensional bin packing problem, generating the large-scale, diverse DocSynth-300K dataset. Pre-training on the resulting DocSynth-300K dataset significantly improves fine-tuning performance across various document types. In terms of model optimization, we propose a Global-to-Local Controllable Receptive Module that is capable of better handling multi-scale variations of document elements. Furthermore, to validate performance across different document types, we introduce a complex and challenging benchmark named DocStructBench. Extensive experiments on downstream datasets demonstrate that DocLayout-YOLO excels in both speed and accuracy. Code, data, and models are available at https://github.com/opendatalab/DocLayout-YOLO.

Summary

AI-Generated Summary

PDF382November 16, 2024