ChatPaper.aiChatPaper

Rapport Technique de HunyuanOCR

HunyuanOCR Technical Report

November 24, 2025
papers.authors: Hunyuan Vision Team, Pengyuan Lyu, Xingyu Wan, Gengluo Li, Shangpin Peng, Weinong Wang, Liang Wu, Huawen Shen, Yu Zhou, Canhui Tang, Qi Yang, Qiming Peng, Bin Luo, Hower Yang, Houwen Peng, Hongming Yang, Senhao Xie, Binghong Wu, Mana Yang, Sergey Wang, Raccoon Liu, Dick Zhu, Jie Jiang, Linus, Han Hu, Chengquan Zhang
cs.AI

papers.abstract

Ce document présente HunyuanOCR, un modèle vision-langage (VLM) open-source de qualité commerciale et léger (1 milliard de paramètres) dédié aux tâches de ROC (Reconnaissance Optique de Caractères). L'architecture comprend un Vision Transformer (ViT) natif et un LLM léger connectés via un adaptateur MLP. HunyuanOCR démontre des performances supérieures, surpassant les API commerciales, les pipelines traditionnels et les modèles plus volumineux (par exemple, Qwen3-VL-4B). Plus précisément, il surpasse les solutions publiques actuelles dans les tâches de perception (Repérage de texte, Analyse) et excelle dans les tâches sémantiques (Extraction d'information, Traduction d'images texte), décrochant la première place au Défi ICDAR 2025 DIMT (Piste des petits modèles). De plus, il obtient des résultats state-of-the-art (SOTA) sur OCRBench parmi les VLM comptant moins de 3 milliards de paramètres. HunyuanOCR réalise des percées dans trois aspects clés : 1) L'unification de la Polyvalence et de l'Efficacité : Nous mettons en œuvre une prise en charge complète des capacités fondamentales, incluant le repérage, l'analyse, l'IE, le VQA et la traduction, dans une architecture légère. Cela répond aux limitations des "modèles experts ROC" trop spécialisés et des "VLM généraux" inefficaces. 2) Une Architecture End-to-End Rationalisée : L'adoption d'un paradigme pur end-to-end élimine les dépendances envers les modules de prétraitement (par exemple, l'analyse de mise en page). Cela résout fondamentalement la propagation d'erreurs courante dans les pipelines traditionnels et simplifie le déploiement du système. 3) Stratégies axées sur les Données et par Renforcement : Nous confirmons le rôle crucial des données de haute qualité et, pour la première fois dans l'industrie, démontrons que les stratégies d'Apprentissage par Renforcement (RL) apportent des gains de performances significatifs dans les tâches de ROC. HunyuanOCR est officiellement open-source sur HuggingFace. Nous fournissons également une solution de déploiement haute performance basée sur vLLM, plaçant son efficacité en production au plus haut niveau. Nous espérons que ce modèle fera progresser la recherche de pointe et fournira une base solide pour les applications industrielles.
English
This paper presents HunyuanOCR, a commercial-grade, open-source, and lightweight (1B parameters) Vision-Language Model (VLM) dedicated to OCR tasks. The architecture comprises a Native Vision Transformer (ViT) and a lightweight LLM connected via an MLP adapter. HunyuanOCR demonstrates superior performance, outperforming commercial APIs, traditional pipelines, and larger models (e.g., Qwen3-VL-4B). Specifically, it surpasses current public solutions in perception tasks (Text Spotting, Parsing) and excels in semantic tasks (IE, Text Image Translation), securing first place in the ICDAR 2025 DIMT Challenge (Small Model Track). Furthermore, it achieves state-of-the-art (SOTA) results on OCRBench among VLMs with fewer than 3B parameters. HunyuanOCR achieves breakthroughs in three key aspects: 1) Unifying Versatility and Efficiency: We implement comprehensive support for core capabilities including spotting, parsing, IE, VQA, and translation within a lightweight framework. This addresses the limitations of narrow "OCR expert models" and inefficient "General VLMs". 2) Streamlined End-to-End Architecture: Adopting a pure end-to-end paradigm eliminates dependencies on pre-processing modules (e.g., layout analysis). This fundamentally resolves error propagation common in traditional pipelines and simplifies system deployment. 3) Data-Driven and RL Strategies: We confirm the critical role of high-quality data and, for the first time in the industry, demonstrate that Reinforcement Learning (RL) strategies yield significant performance gains in OCR tasks. HunyuanOCR is officially open-sourced on HuggingFace. We also provide a high-performance deployment solution based on vLLM, placing its production efficiency in the top tier. We hope this model will advance frontier research and provide a solid foundation for industrial applications.
PDF183December 1, 2025