Relazione Tecnica di HunyuanOCR
HunyuanOCR Technical Report
November 24, 2025
Autori: Hunyuan Vision Team, Pengyuan Lyu, Xingyu Wan, Gengluo Li, Shangpin Peng, Weinong Wang, Liang Wu, Huawen Shen, Yu Zhou, Canhui Tang, Qi Yang, Qiming Peng, Bin Luo, Hower Yang, Houwen Peng, Hongming Yang, Senhao Xie, Binghong Wu, Mana Yang, Sergey Wang, Raccoon Liu, Dick Zhu, Jie Jiang, Linus, Han Hu, Chengquan Zhang
cs.AI
Abstract
Questo articolo presenta HunyuanOCR, un modello visione-linguaggio (VLM) open-source di livello commerciale e leggero (1B di parametri) dedicato a compiti OCR. L'architettura comprende un Vision Transformer (ViT) nativo e un LLM leggero collegati tramite un adattatore MLP. HunyuanOCR dimostra prestazioni superiori, superando API commerciali, pipeline tradizionali e modelli più grandi (ad esempio, Qwen3-VL-4B). In particolare, supera le soluzioni pubbliche attuali nei compiti di percezione (Text Spotting, Parsing) ed eccelle nei compiti semantici (IE, Text Image Translation), conquistando il primo posto nella ICDAR 2025 DIMT Challenge (Small Model Track). Inoltre, ottiene risultati state-of-the-art (SOTA) su OCRBench tra i VLM con meno di 3B di parametri.
HunyuanOCR raggiunge progressi in tre aspetti chiave: 1) Unificazione di Versatilità ed Efficienza: Implementiamo un supporto completo per le capacità fondamentali, inclusi spotting, parsing, IE, VQA e traduzione, all'interno di un framework leggero. Ciò affronta i limiti dei ristretti "modelli OCR esperti" e degli inefficienti "VLM generali". 2) Architettura End-to-End Semplificata: L'adozione di un paradigma puro end-to-end elimina le dipendenze da moduli di pre-elaborazione (ad esempio, analisi del layout). Ciò risolve fondamentalmente la propagazione degli errori comune nelle pipeline tradizionali e semplica la distribuzione del sistema. 3) Strategie Basate sui Dati e RL: Confermiamo il ruolo cruciale di dati di alta qualità e, per la prima volta nel settore, dimostriamo che le strategie di Apprendimento per Rinforzo (RL) producono significativi miglioramenti delle prestazioni nei compiti OCR.
HunyuanOCR è ufficialmente open-source su HuggingFace. Forniamo inoltre una soluzione di distribuzione ad alte prestazioni basata su vLLM, collocando la sua efficienza produttiva al massimo livello. Speriamo che questo modello possa far avanzare la ricerca di frontiera e fornire una solida base per applicazioni industriali.
English
This paper presents HunyuanOCR, a commercial-grade, open-source, and lightweight (1B parameters) Vision-Language Model (VLM) dedicated to OCR tasks. The architecture comprises a Native Vision Transformer (ViT) and a lightweight LLM connected via an MLP adapter. HunyuanOCR demonstrates superior performance, outperforming commercial APIs, traditional pipelines, and larger models (e.g., Qwen3-VL-4B). Specifically, it surpasses current public solutions in perception tasks (Text Spotting, Parsing) and excels in semantic tasks (IE, Text Image Translation), securing first place in the ICDAR 2025 DIMT Challenge (Small Model Track). Furthermore, it achieves state-of-the-art (SOTA) results on OCRBench among VLMs with fewer than 3B parameters.
HunyuanOCR achieves breakthroughs in three key aspects: 1) Unifying Versatility and Efficiency: We implement comprehensive support for core capabilities including spotting, parsing, IE, VQA, and translation within a lightweight framework. This addresses the limitations of narrow "OCR expert models" and inefficient "General VLMs". 2) Streamlined End-to-End Architecture: Adopting a pure end-to-end paradigm eliminates dependencies on pre-processing modules (e.g., layout analysis). This fundamentally resolves error propagation common in traditional pipelines and simplifies system deployment. 3) Data-Driven and RL Strategies: We confirm the critical role of high-quality data and, for the first time in the industry, demonstrate that Reinforcement Learning (RL) strategies yield significant performance gains in OCR tasks.
HunyuanOCR is officially open-sourced on HuggingFace. We also provide a high-performance deployment solution based on vLLM, placing its production efficiency in the top tier. We hope this model will advance frontier research and provide a solid foundation for industrial applications.