PaddleOCR-VL-1.5: 강건한 실전 문서 파싱을 위한 다중 작업 0.9B VLM 모델
PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing
January 29, 2026
저자: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI
초록
PaddleOCR-VL-1.5를 소개합니다. 이는 업그레이드된 모델로 OmniDocBench v1.5에서 94.5%의 새로운 최첨단(SOTA) 정확도를 달성했습니다. 스캐닝, 기울어짐, 왜곡, 화면 촬영, 조명 변화를 포함한 실제 물리적 왜곡에 대한 견고성을 엄격하게 평가하기 위해 Real5-OmniDocBench 벤치마크를 제안합니다. 실험 결과는 이 향상된 모델이 새롭게 구축된 벤치마크에서 SOTA 성능을 달성함을 보여줍니다. 더 나아가 인감 인식 및 텍스트 스포팅 작업을 통합하여 모델의 기능을 확장하면서도, 높은 효율성을 유지하는 0.9B 규모의 초소형 VLM으로 남아 있습니다. 코드: https://github.com/PaddlePaddle/PaddleOCR
English
We introduce PaddleOCR-VL-1.5, an upgraded model achieving a new state-of-the-art (SOTA) accuracy of 94.5% on OmniDocBench v1.5. To rigorously evaluate robustness against real-world physical distortions, including scanning, skew, warping, screen-photography, and illumination, we propose the Real5-OmniDocBench benchmark. Experimental results demonstrate that this enhanced model attains SOTA performance on the newly curated benchmark. Furthermore, we extend the model's capabilities by incorporating seal recognition and text spotting tasks, while remaining a 0.9B ultra-compact VLM with high efficiency. Code: https://github.com/PaddlePaddle/PaddleOCR