로직스-파싱 기술 보고서
Logics-Parsing Technical Report
September 24, 2025
저자: Xiangyang Chen, Shuzhao Li, Xiuwen Zhu, Yongfan Chen, Fan Yang, Cheng Fang, Lin Qu, Xiaoxiao Xu, Hu Wei, Minggang Wu
cs.AI
초록
대형 시각-언어 모델(LVLM)의 최근 발전은 문서 파싱 작업에서 상당한 진전을 이끌어냈습니다. 기존의 파이프라인 기반 방법과 비교하여, 종단 간(end-to-end) 패러다임은 광학 문자 인식(OCR), 표 인식, 수학 공식 인식 등을 통합하여 PDF 이미지를 구조화된 출력으로 변환하는 데 탁월한 성능을 보여주었습니다. 그러나 문서 레이아웃과 읽기 순서에 대한 명시적인 분석 단계가 부족하여 LVLM이 다단 신문이나 포스터와 같은 복잡한 문서 유형을 처리하는 데 한계가 있습니다. 이러한 한계를 해결하기 위해, 본 보고서에서는 강화 학습을 통해 보강된 종단 간 LVLM 기반 모델인 Logics-Parsing을 제안합니다. 우리의 모델은 복잡한 레이아웃 분석과 읽기 순서 추론을 최적화하기 위해 세심하게 설계된 보상 메커니즘을 통합합니다. 또한, 화학 공식과 손글씨 한자와 같은 다양한 데이터 유형을 지도 미세 조정에 통합하여 모델의 다용성을 확장했습니다. 마지막으로, 우리의 접근 방식을 엄격하게 평가하기 위해 9개의 주요 범주와 20개 이상의 하위 범주에 걸친 1,078개의 페이지 수준 PDF 이미지로 구성된 LogicsParsingBench를 소개합니다. 이 데이터셋은 추후 공개될 예정입니다. LogicsParsingBench에서 수행된 포괄적인 실험을 통해 제안된 모델이 다양한 문서 분석 시나리오에서 최첨단(SOTA) 성능을 보이는 효과성을 검증했습니다. 프로젝트 페이지: https://github.com/alibaba/Logics-Parsing
English
Recent advances in Large Vision-Language models (LVLM) have spurred
significant progress in document parsing task. Compared to traditional
pipeline-based methods, end-to-end paradigms have shown their excellence in
converting PDF images into structured outputs through integrated Optical
Character Recognition (OCR), table recognition, mathematical formula
recognition and so on. However, the absence of explicit analytical stages for
document layouts and reading orders limits the LVLM's capability in handling
complex document types such as multi-column newspapers or posters. To address
this limitation, we propose in this report Logics-Parsing: an end-to-end
LVLM-based model augmented with reinforcement learning. Our model incorporates
meticulously designed reward mechanisms to optimize complex layout analysis and
reading order inference. In addition, we expand the model's versatility by
incorporating diverse data types such as chemical formulas and handwritten
Chinese characters into supervised fine-tuning. Finally, to enable rigorous
evaluation of our approach, we introduce LogicsParsingBench, a curated set of
1,078 page-level PDF images spanning nine major categories and over twenty
sub-categories, which will be released later. Comprehensive experiments
conducted on LogicsParsingBench have validated the efficacy and
State-of-the-art (SOTA) performance of our proposed model across diverse
document analysis scenarios. Project Page:
https://github.com/alibaba/Logics-Parsing