Technischer Bericht zur Logik-Parsing
Logics-Parsing Technical Report
September 24, 2025
papers.authors: Xiangyang Chen, Shuzhao Li, Xiuwen Zhu, Yongfan Chen, Fan Yang, Cheng Fang, Lin Qu, Xiaoxiao Xu, Hu Wei, Minggang Wu
cs.AI
papers.abstract
Jüngste Fortschritte bei großen visuell-sprachlichen Modellen (Large Vision-Language Models, LVLM) haben erhebliche Fortschritte bei der Aufgabe der Dokumentenanalyse bewirkt. Im Vergleich zu traditionellen pipeline-basierten Methoden haben End-to-End-Paradigmen ihre Exzellenz bei der Umwandlung von PDF-Bildern in strukturierte Ausgaben durch integrierte optische Zeichenerkennung (OCR), Tabellenerkennung, mathematische Formelerkennung und mehr gezeigt. Das Fehlen expliziter analytischer Stufen für Dokumentlayouts und Lesereihenfolgen begrenzt jedoch die Fähigkeit von LVLM, komplexe Dokumenttypen wie mehrspaltige Zeitungen oder Poster zu verarbeiten. Um diese Einschränkung zu überwinden, schlagen wir in diesem Bericht Logics-Parsing vor: ein End-to-End-Modell auf LVLM-Basis, das durch Reinforcement Learning erweitert wird. Unser Modell integriert sorgfältig entworfene Belohnungsmechanismen, um die Analyse komplexer Layouts und die Inferenz von Lesereihenfolgen zu optimieren. Darüber hinaus erweitern wir die Vielseitigkeit des Modells, indem wir verschiedene Datentypen wie chemische Formeln und handgeschriebene chinesische Zeichen in das überwachte Feinabstimmen einbeziehen. Schließlich führen wir LogicsParsingBench ein, einen kuratierten Satz von 1.078 seitenbasierten PDF-Bildern, die neun Hauptkategorien und über zwanzig Unterkategorien umfassen und später veröffentlicht werden. Umfassende Experimente, die auf LogicsParsingBench durchgeführt wurden, haben die Wirksamkeit und die State-of-the-Art (SOTA)-Leistung unseres vorgeschlagenen Modells in verschiedenen Dokumentanalyseszenarien bestätigt. Projektseite: https://github.com/alibaba/Logics-Parsing
English
Recent advances in Large Vision-Language models (LVLM) have spurred
significant progress in document parsing task. Compared to traditional
pipeline-based methods, end-to-end paradigms have shown their excellence in
converting PDF images into structured outputs through integrated Optical
Character Recognition (OCR), table recognition, mathematical formula
recognition and so on. However, the absence of explicit analytical stages for
document layouts and reading orders limits the LVLM's capability in handling
complex document types such as multi-column newspapers or posters. To address
this limitation, we propose in this report Logics-Parsing: an end-to-end
LVLM-based model augmented with reinforcement learning. Our model incorporates
meticulously designed reward mechanisms to optimize complex layout analysis and
reading order inference. In addition, we expand the model's versatility by
incorporating diverse data types such as chemical formulas and handwritten
Chinese characters into supervised fine-tuning. Finally, to enable rigorous
evaluation of our approach, we introduce LogicsParsingBench, a curated set of
1,078 page-level PDF images spanning nine major categories and over twenty
sub-categories, which will be released later. Comprehensive experiments
conducted on LogicsParsingBench have validated the efficacy and
State-of-the-art (SOTA) performance of our proposed model across diverse
document analysis scenarios. Project Page:
https://github.com/alibaba/Logics-Parsing