Technisch Rapport over Logica-Parsing
Logics-Parsing Technical Report
September 24, 2025
Auteurs: Xiangyang Chen, Shuzhao Li, Xiuwen Zhu, Yongfan Chen, Fan Yang, Cheng Fang, Lin Qu, Xiaoxiao Xu, Hu Wei, Minggang Wu
cs.AI
Samenvatting
Recente ontwikkelingen in Grote Visueel-Taalmodellen (LVLM) hebben aanzienlijke vooruitgang geboekt in documentparsing-taken. In vergelijking met traditionele pipeline-gebaseerde methoden hebben end-to-end-paradigma's hun uitmuntendheid getoond in het omzetten van PDF-afbeeldingen naar gestructureerde uitvoer via geïntegreerde Optical Character Recognition (OCR), tabelherkenning, wiskundige formuleherkenning en meer. Het ontbreken van expliciete analytische fasen voor documentlay-outs en leesvolgordes beperkt echter het vermogen van LVLM's om complexe documenttypen zoals meerkolomskranten of posters te verwerken. Om deze beperking aan te pakken, stellen we in dit rapport Logics-Parsing voor: een end-to-end LVLM-gebaseerd model versterkt met reinforcement learning. Ons model bevat zorgvuldig ontworpen beloningsmechanismen om complexe lay-outanalyse en leesvolgorde-inferentie te optimaliseren. Daarnaast vergroten we de veelzijdigheid van het model door diverse gegevenstypen zoals chemische formules en handgeschreven Chinese karakters op te nemen in supervised fine-tuning. Tot slot introduceren we, om een rigoureuze evaluatie van onze aanpak mogelijk te maken, LogicsParsingBench, een gecureerde set van 1.078 pagina-niveau PDF-afbeeldingen die negen hoofdcategorieën en meer dan twintig subcategorieën omvat, die later wordt vrijgegeven. Uitgebreide experimenten uitgevoerd op LogicsParsingBench hebben de effectiviteit en State-of-the-art (SOTA) prestaties van ons voorgestelde model in diverse documentanalyse-scenario's gevalideerd. Projectpagina: https://github.com/alibaba/Logics-Parsing
English
Recent advances in Large Vision-Language models (LVLM) have spurred
significant progress in document parsing task. Compared to traditional
pipeline-based methods, end-to-end paradigms have shown their excellence in
converting PDF images into structured outputs through integrated Optical
Character Recognition (OCR), table recognition, mathematical formula
recognition and so on. However, the absence of explicit analytical stages for
document layouts and reading orders limits the LVLM's capability in handling
complex document types such as multi-column newspapers or posters. To address
this limitation, we propose in this report Logics-Parsing: an end-to-end
LVLM-based model augmented with reinforcement learning. Our model incorporates
meticulously designed reward mechanisms to optimize complex layout analysis and
reading order inference. In addition, we expand the model's versatility by
incorporating diverse data types such as chemical formulas and handwritten
Chinese characters into supervised fine-tuning. Finally, to enable rigorous
evaluation of our approach, we introduce LogicsParsingBench, a curated set of
1,078 page-level PDF images spanning nine major categories and over twenty
sub-categories, which will be released later. Comprehensive experiments
conducted on LogicsParsingBench have validated the efficacy and
State-of-the-art (SOTA) performance of our proposed model across diverse
document analysis scenarios. Project Page:
https://github.com/alibaba/Logics-Parsing