ChatPaper.aiChatPaper

Технический отчет по логическому парсингу

Logics-Parsing Technical Report

September 24, 2025
Авторы: Xiangyang Chen, Shuzhao Li, Xiuwen Zhu, Yongfan Chen, Fan Yang, Cheng Fang, Lin Qu, Xiaoxiao Xu, Hu Wei, Minggang Wu
cs.AI

Аннотация

Последние достижения в области крупных моделей обработки зрения и языка (LVLM) стимулировали значительный прогресс в задачах анализа документов. По сравнению с традиционными методами, основанными на последовательных этапах обработки, сквозные (end-to-end) подходы продемонстрировали превосходство в преобразовании изображений PDF в структурированные данные благодаря интеграции технологий оптического распознавания символов (OCR), распознавания таблиц, математических формул и других компонентов. Однако отсутствие явных этапов анализа макета документа и порядка чтения ограничивает возможности LVLM в обработке сложных типов документов, таких как многоколоночные газеты или плакаты. Для устранения этого ограничения в данном отчете мы предлагаем Logics-Parsing: сквозную модель на основе LVLM, усиленную обучением с подкреплением. Наша модель включает тщательно разработанные механизмы вознаграждения для оптимизации анализа сложных макетов и вывода порядка чтения. Кроме того, мы расширяем универсальность модели, включая в процесс контролируемой тонкой настройки разнообразные типы данных, такие как химические формулы и рукописные китайские иероглифы. Наконец, для обеспечения строгой оценки нашего подхода мы представляем LogicsParsingBench — тщательно отобранный набор из 1 078 изображений PDF на уровне страниц, охватывающих девять основных категорий и более двадцати подкатегорий, который будет опубликован позднее. Комплексные эксперименты, проведенные на LogicsParsingBench, подтвердили эффективность и передовые (State-of-the-art, SOTA) характеристики нашей модели в различных сценариях анализа документов. Страница проекта: https://github.com/alibaba/Logics-Parsing
English
Recent advances in Large Vision-Language models (LVLM) have spurred significant progress in document parsing task. Compared to traditional pipeline-based methods, end-to-end paradigms have shown their excellence in converting PDF images into structured outputs through integrated Optical Character Recognition (OCR), table recognition, mathematical formula recognition and so on. However, the absence of explicit analytical stages for document layouts and reading orders limits the LVLM's capability in handling complex document types such as multi-column newspapers or posters. To address this limitation, we propose in this report Logics-Parsing: an end-to-end LVLM-based model augmented with reinforcement learning. Our model incorporates meticulously designed reward mechanisms to optimize complex layout analysis and reading order inference. In addition, we expand the model's versatility by incorporating diverse data types such as chemical formulas and handwritten Chinese characters into supervised fine-tuning. Finally, to enable rigorous evaluation of our approach, we introduce LogicsParsingBench, a curated set of 1,078 page-level PDF images spanning nine major categories and over twenty sub-categories, which will be released later. Comprehensive experiments conducted on LogicsParsingBench have validated the efficacy and State-of-the-art (SOTA) performance of our proposed model across diverse document analysis scenarios. Project Page: https://github.com/alibaba/Logics-Parsing
PDF42September 25, 2025