PaddleOCR-VL-1.5:実環境文書解析のためのマルチタスク0.9B VLMを目指して
PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing
January 29, 2026
著者: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Yi Liu, Dianhai Yu, Yanjun Ma
cs.AI
要旨
PaddleOCR-VL-1.5を紹介する。本モデルはOmniDocBench v1.5において94.5%の新たなSOTA精度を達成した。スキャン、傾斜、歪み、画面撮影、照明変化といった実世界の物理的歪みに対する頑健性を厳密に評価するため、Real5-OmniDocBenchベンチマークを新たに提案する。実験結果により、拡張されたモデルがこの新規ベンチマークにおいてSOTA性能を達成することが実証された。さらに、印鑑認識とテキストスポッティングタスクを統合することでモデルの機能を拡張しつつ、0.9Bパラメータの超コンパクトなVLMとして高い効率性を維持している。コードはhttps://github.com/PaddlePaddle/PaddleOCRで公開されている。
English
We introduce PaddleOCR-VL-1.5, an upgraded model achieving a new state-of-the-art (SOTA) accuracy of 94.5% on OmniDocBench v1.5. To rigorously evaluate robustness against real-world physical distortions, including scanning, skew, warping, screen-photography, and illumination, we propose the Real5-OmniDocBench benchmark. Experimental results demonstrate that this enhanced model attains SOTA performance on the newly curated benchmark. Furthermore, we extend the model's capabilities by incorporating seal recognition and text spotting tasks, while remaining a 0.9B ultra-compact VLM with high efficiency. Code: https://github.com/PaddlePaddle/PaddleOCR