Rapporto Tecnico sul Parsing Logico
Logics-Parsing Technical Report
September 24, 2025
Autori: Xiangyang Chen, Shuzhao Li, Xiuwen Zhu, Yongfan Chen, Fan Yang, Cheng Fang, Lin Qu, Xiaoxiao Xu, Hu Wei, Minggang Wu
cs.AI
Abstract
I recenti progressi nei modelli Large Vision-Language (LVLM) hanno stimolato
avanzamenti significativi nel compito di analisi dei documenti. Rispetto ai
metodi tradizionali basati su pipeline, i paradigmi end-to-end hanno dimostrato
la loro eccellenza nella conversione di immagini PDF in output strutturati
attraverso l'integrazione di Optical Character Recognition (OCR), riconoscimento
di tabelle, riconoscimento di formule matematiche e così via. Tuttavia,
l'assenza di fasi analitiche esplicite per i layout dei documenti e gli ordini
di lettura limita la capacità degli LVLM di gestire tipi di documenti complessi
come giornali a più colonne o poster. Per affrontare questa limitazione, proponiamo
in questo report Logics-Parsing: un modello end-to-end basato su LVLM potenziato
con apprendimento per rinforzo. Il nostro modello incorpora meccanismi di ricompensa
accuratamente progettati per ottimizzare l'analisi di layout complessi e l'inferenza
dell'ordine di lettura. Inoltre, ampliamo la versatilità del modello incorporando
tipi di dati diversi come formule chimiche e caratteri cinesi scritti a mano nel
fine-tuning supervisionato. Infine, per consentire una valutazione rigorosa del
nostro approccio, introduciamo LogicsParsingBench, un set curato di 1.078 immagini
PDF a livello di pagina che coprono nove categorie principali e oltre venti
sottocategorie, che verrà rilasciato in seguito. Esperimenti completi condotti su
LogicsParsingBench hanno validato l'efficacia e le prestazioni State-of-the-art
(SOTA) del nostro modello proposto in diversi scenari di analisi documentale.
Pagina del progetto:
https://github.com/alibaba/Logics-Parsing
English
Recent advances in Large Vision-Language models (LVLM) have spurred
significant progress in document parsing task. Compared to traditional
pipeline-based methods, end-to-end paradigms have shown their excellence in
converting PDF images into structured outputs through integrated Optical
Character Recognition (OCR), table recognition, mathematical formula
recognition and so on. However, the absence of explicit analytical stages for
document layouts and reading orders limits the LVLM's capability in handling
complex document types such as multi-column newspapers or posters. To address
this limitation, we propose in this report Logics-Parsing: an end-to-end
LVLM-based model augmented with reinforcement learning. Our model incorporates
meticulously designed reward mechanisms to optimize complex layout analysis and
reading order inference. In addition, we expand the model's versatility by
incorporating diverse data types such as chemical formulas and handwritten
Chinese characters into supervised fine-tuning. Finally, to enable rigorous
evaluation of our approach, we introduce LogicsParsingBench, a curated set of
1,078 page-level PDF images spanning nine major categories and over twenty
sub-categories, which will be released later. Comprehensive experiments
conducted on LogicsParsingBench have validated the efficacy and
State-of-the-art (SOTA) performance of our proposed model across diverse
document analysis scenarios. Project Page:
https://github.com/alibaba/Logics-Parsing