HunyuanOCR Technisch Rapport
HunyuanOCR Technical Report
November 24, 2025
Auteurs: Hunyuan Vision Team, Pengyuan Lyu, Xingyu Wan, Gengluo Li, Shangpin Peng, Weinong Wang, Liang Wu, Huawen Shen, Yu Zhou, Canhui Tang, Qi Yang, Qiming Peng, Bin Luo, Hower Yang, Houwen Peng, Hongming Yang, Senhao Xie, Binghong Wu, Mana Yang, Sergey Wang, Raccoon Liu, Dick Zhu, Jie Jiang, Linus, Han Hu, Chengquan Zhang
cs.AI
Samenvatting
Dit artikel presenteert HunyuanOCR, een commercieelwaardig, open-source en lichtgewicht (1B parameters) Vision-Language Model (VLM) voor OCR-taken. De architectuur bestaat uit een Native Vision Transformer (ViT) en een lichtgewicht LLM, verbonden via een MLP-adapter. HunyuanOCR toont superieure prestaties door commerciële API's, traditionele pijplijnen en grotere modellen (bijv. Qwen3-VL-4B) te overtreffen. Specifiek overtreft het huidige openbare oplossingen in perceptietaken (Text Spotting, Parsing) en blinkt het uit in semantieke taken (IE, Text Image Translation), waarmee het de eerste plaats behaalde in de ICDAR 2025 DIMT Challenge (Small Model Track). Bovendien behaalt het state-of-the-art (SOTA) resultaten op OCRBench onder VLM's met minder dan 3B parameters.
HunyuanOCR bereikt doorbraken in drie belangrijke aspecten: 1) Eenwording van veelzijdigheid en efficiëntie: We implementeren uitgebreide ondersteuning voor kerncapaciteiten zoals spotting, parsing, IE, VQA en vertaling binnen een lichtgewicht kader. Dit lost de beperkingen op van smalle "OCR-expertmodellen" en inefficiënte "algemene VLM's". 2) Gestroomlijnde end-to-end architectuur: Door een puur end-to-end paradigma te hanteren, worden afhankelijkheden van pre-processing modules (bijv. lay-outanalyse) geëlimineerd. Dit lost fundamenteel de foutpropagatie op die gebruikelijk is in traditionele pijplijnen en vereenvoudigt systeemimplementatie. 3) Data-gedreven en RL-strategieën: We bevestigen de cruciale rol van hoogwaardige data en tonen voor het eerst in de industrie aan dat Reinforcement Learning (RL)-strategieën aanzienlijke prestatieverbeteringen opleveren voor OCR-taken.
HunyuanOCR is officieel open-source gemaakt op HuggingFace. We bieden tevens een hoogwaardige implementatieoplossing op basis van vLLM, waardoor de productie-efficiëntie tot de topklasse behoort. We hopen dat dit model grensverleggend onderzoek zal bevorderen en een solide basis zal bieden voor industriële toepassingen.
English
This paper presents HunyuanOCR, a commercial-grade, open-source, and lightweight (1B parameters) Vision-Language Model (VLM) dedicated to OCR tasks. The architecture comprises a Native Vision Transformer (ViT) and a lightweight LLM connected via an MLP adapter. HunyuanOCR demonstrates superior performance, outperforming commercial APIs, traditional pipelines, and larger models (e.g., Qwen3-VL-4B). Specifically, it surpasses current public solutions in perception tasks (Text Spotting, Parsing) and excels in semantic tasks (IE, Text Image Translation), securing first place in the ICDAR 2025 DIMT Challenge (Small Model Track). Furthermore, it achieves state-of-the-art (SOTA) results on OCRBench among VLMs with fewer than 3B parameters.
HunyuanOCR achieves breakthroughs in three key aspects: 1) Unifying Versatility and Efficiency: We implement comprehensive support for core capabilities including spotting, parsing, IE, VQA, and translation within a lightweight framework. This addresses the limitations of narrow "OCR expert models" and inefficient "General VLMs". 2) Streamlined End-to-End Architecture: Adopting a pure end-to-end paradigm eliminates dependencies on pre-processing modules (e.g., layout analysis). This fundamentally resolves error propagation common in traditional pipelines and simplifies system deployment. 3) Data-Driven and RL Strategies: We confirm the critical role of high-quality data and, for the first time in the industry, demonstrate that Reinforcement Learning (RL) strategies yield significant performance gains in OCR tasks.
HunyuanOCR is officially open-sourced on HuggingFace. We also provide a high-performance deployment solution based on vLLM, placing its production efficiency in the top tier. We hope this model will advance frontier research and provide a solid foundation for industrial applications.