ChatPaper.aiChatPaper

로직스-파싱 기술 보고서

Logics-Parsing Technical Report

September 24, 2025
저자: Xiangyang Chen, Shuzhao Li, Xiuwen Zhu, Yongfan Chen, Fan Yang, Cheng Fang, Lin Qu, Xiaoxiao Xu, Hu Wei, Minggang Wu
cs.AI

초록

대형 시각-언어 모델(LVLM)의 최근 발전은 문서 파싱 작업에서 상당한 진전을 이끌어냈습니다. 기존의 파이프라인 기반 방법과 비교하여, 종단 간(end-to-end) 패러다임은 광학 문자 인식(OCR), 표 인식, 수학 공식 인식 등을 통합하여 PDF 이미지를 구조화된 출력으로 변환하는 데 탁월한 성능을 보여주었습니다. 그러나 문서 레이아웃과 읽기 순서에 대한 명시적인 분석 단계가 부족하여 LVLM이 다단 신문이나 포스터와 같은 복잡한 문서 유형을 처리하는 데 한계가 있습니다. 이러한 한계를 해결하기 위해, 본 보고서에서는 강화 학습을 통해 보강된 종단 간 LVLM 기반 모델인 Logics-Parsing을 제안합니다. 우리의 모델은 복잡한 레이아웃 분석과 읽기 순서 추론을 최적화하기 위해 세심하게 설계된 보상 메커니즘을 통합합니다. 또한, 화학 공식과 손글씨 한자와 같은 다양한 데이터 유형을 지도 미세 조정에 통합하여 모델의 다용성을 확장했습니다. 마지막으로, 우리의 접근 방식을 엄격하게 평가하기 위해 9개의 주요 범주와 20개 이상의 하위 범주에 걸친 1,078개의 페이지 수준 PDF 이미지로 구성된 LogicsParsingBench를 소개합니다. 이 데이터셋은 추후 공개될 예정입니다. LogicsParsingBench에서 수행된 포괄적인 실험을 통해 제안된 모델이 다양한 문서 분석 시나리오에서 최첨단(SOTA) 성능을 보이는 효과성을 검증했습니다. 프로젝트 페이지: https://github.com/alibaba/Logics-Parsing
English
Recent advances in Large Vision-Language models (LVLM) have spurred significant progress in document parsing task. Compared to traditional pipeline-based methods, end-to-end paradigms have shown their excellence in converting PDF images into structured outputs through integrated Optical Character Recognition (OCR), table recognition, mathematical formula recognition and so on. However, the absence of explicit analytical stages for document layouts and reading orders limits the LVLM's capability in handling complex document types such as multi-column newspapers or posters. To address this limitation, we propose in this report Logics-Parsing: an end-to-end LVLM-based model augmented with reinforcement learning. Our model incorporates meticulously designed reward mechanisms to optimize complex layout analysis and reading order inference. In addition, we expand the model's versatility by incorporating diverse data types such as chemical formulas and handwritten Chinese characters into supervised fine-tuning. Finally, to enable rigorous evaluation of our approach, we introduce LogicsParsingBench, a curated set of 1,078 page-level PDF images spanning nine major categories and over twenty sub-categories, which will be released later. Comprehensive experiments conducted on LogicsParsingBench have validated the efficacy and State-of-the-art (SOTA) performance of our proposed model across diverse document analysis scenarios. Project Page: https://github.com/alibaba/Logics-Parsing
PDF42September 25, 2025