Rapport Technique sur l'Analyse Logique
Logics-Parsing Technical Report
September 24, 2025
papers.authors: Xiangyang Chen, Shuzhao Li, Xiuwen Zhu, Yongfan Chen, Fan Yang, Cheng Fang, Lin Qu, Xiaoxiao Xu, Hu Wei, Minggang Wu
cs.AI
papers.abstract
Les récentes avancées dans les modèles de vision et langage à grande échelle (LVLM) ont stimulé des progrès significatifs dans la tâche d'analyse de documents. Par rapport aux méthodes traditionnelles basées sur des pipelines, les paradigmes de bout en bout ont démontré leur excellence dans la conversion d'images PDF en sorties structurées grâce à l'intégration de la reconnaissance optique de caractères (OCR), de la reconnaissance de tableaux, de la reconnaissance de formules mathématiques, etc. Cependant, l'absence d'étapes analytiques explicites pour les mises en page de documents et les ordres de lecture limite la capacité des LVLM à gérer des types de documents complexes tels que les journaux à plusieurs colonnes ou les affiches. Pour remédier à cette limitation, nous proposons dans ce rapport Logics-Parsing : un modèle LVLM de bout en bout renforcé par l'apprentissage par renforcement. Notre modèle intègre des mécanismes de récompense soigneusement conçus pour optimiser l'analyse complexe des mises en page et l'inférence de l'ordre de lecture. De plus, nous élargissons la polyvalence du modèle en incorporant divers types de données tels que les formules chimiques et les caractères chinois manuscrits dans le réglage fin supervisé. Enfin, pour permettre une évaluation rigoureuse de notre approche, nous introduisons LogicsParsingBench, un ensemble soigneusement sélectionné de 1 078 images PDF au niveau de la page couvrant neuf catégories principales et plus de vingt sous-catégories, qui sera publié ultérieurement. Des expériences approfondies menées sur LogicsParsingBench ont validé l'efficacité et les performances de pointe (SOTA) de notre modèle proposé dans divers scénarios d'analyse de documents. Page du projet : https://github.com/alibaba/Logics-Parsing
English
Recent advances in Large Vision-Language models (LVLM) have spurred
significant progress in document parsing task. Compared to traditional
pipeline-based methods, end-to-end paradigms have shown their excellence in
converting PDF images into structured outputs through integrated Optical
Character Recognition (OCR), table recognition, mathematical formula
recognition and so on. However, the absence of explicit analytical stages for
document layouts and reading orders limits the LVLM's capability in handling
complex document types such as multi-column newspapers or posters. To address
this limitation, we propose in this report Logics-Parsing: an end-to-end
LVLM-based model augmented with reinforcement learning. Our model incorporates
meticulously designed reward mechanisms to optimize complex layout analysis and
reading order inference. In addition, we expand the model's versatility by
incorporating diverse data types such as chemical formulas and handwritten
Chinese characters into supervised fine-tuning. Finally, to enable rigorous
evaluation of our approach, we introduce LogicsParsingBench, a curated set of
1,078 page-level PDF images spanning nine major categories and over twenty
sub-categories, which will be released later. Comprehensive experiments
conducted on LogicsParsingBench have validated the efficacy and
State-of-the-art (SOTA) performance of our proposed model across diverse
document analysis scenarios. Project Page:
https://github.com/alibaba/Logics-Parsing