Informe Técnico de HunyuanOCR
HunyuanOCR Technical Report
November 24, 2025
Autores: Hunyuan Vision Team, Pengyuan Lyu, Xingyu Wan, Gengluo Li, Shangpin Peng, Weinong Wang, Liang Wu, Huawen Shen, Yu Zhou, Canhui Tang, Qi Yang, Qiming Peng, Bin Luo, Hower Yang, Houwen Peng, Hongming Yang, Senhao Xie, Binghong Wu, Mana Yang, Sergey Wang, Raccoon Liu, Dick Zhu, Jie Jiang, Linus, Han Hu, Chengquan Zhang
cs.AI
Resumen
Este artículo presenta HunyuanOCR, un Modelo de Lenguaje-Visión (VLM) de grado comercial, de código abierto y ligero (1B parámetros) dedicado a tareas de OCR. La arquitectura comprende un Transformer de Visión Nativo (ViT) y un LLM ligero conectados mediante un adaptador MLP. HunyuanOCR demuestra un rendimiento superior, superando a las APIs comerciales, a los pipelines tradicionales y a modelos más grandes (por ejemplo, Qwen3-VL-4B). Específicamente, supera a las soluciones públicas actuales en tareas de percepción (Detección de Texto, Análisis Sintáctico) y sobresale en tareas semánticas (IE, Traducción de Imagen-Texto), asegurando el primer puesto en el Desafío ICDAR 2025 DIMT (Categoría de Modelos Pequeños). Además, logra resultados de vanguardia (SOTA) en OCRBench entre los VLMs con menos de 3B parámetros.
HunyuanOCR logra avances en tres aspectos clave: 1) Unificación de Versatilidad y Eficiencia: Implementamos soporte integral para capacidades centrales que incluyen detección, análisis sintáctico, IE, VQA y traducción dentro de un marco ligero. Esto aborda las limitaciones de los estrechos "modelos expertos en OCR" y los ineficientes "VLMs Generales". 2) Arquitectura Eficiente de Extremo a Extremo: La adopción de un paradigma puro de extremo a extremo elimina las dependencias de módulos de preprocesamiento (por ejemplo, análisis de diseño). Esto resuelve fundamentalmente la propagación de errores común en los pipelines tradicionales y simplifica el despliegue del sistema. 3) Estrategias Basadas en Datos y RL: Confirmamos el papel crítico de los datos de alta calidad y, por primera vez en la industria, demostramos que las estrategias de Aprendizaje por Refuerzo (RL) producen ganancias significativas de rendimiento en tareas de OCR.
HunyuanOCR es oficialmente de código abierto en HuggingFace. También proporcionamos una solución de despliegue de alto rendimiento basada en vLLM, situando su eficiencia productiva en el nivel más alto. Esperamos que este modelo impulse la investigación de vanguardia y proporcione una base sólida para aplicaciones industriales.
English
This paper presents HunyuanOCR, a commercial-grade, open-source, and lightweight (1B parameters) Vision-Language Model (VLM) dedicated to OCR tasks. The architecture comprises a Native Vision Transformer (ViT) and a lightweight LLM connected via an MLP adapter. HunyuanOCR demonstrates superior performance, outperforming commercial APIs, traditional pipelines, and larger models (e.g., Qwen3-VL-4B). Specifically, it surpasses current public solutions in perception tasks (Text Spotting, Parsing) and excels in semantic tasks (IE, Text Image Translation), securing first place in the ICDAR 2025 DIMT Challenge (Small Model Track). Furthermore, it achieves state-of-the-art (SOTA) results on OCRBench among VLMs with fewer than 3B parameters.
HunyuanOCR achieves breakthroughs in three key aspects: 1) Unifying Versatility and Efficiency: We implement comprehensive support for core capabilities including spotting, parsing, IE, VQA, and translation within a lightweight framework. This addresses the limitations of narrow "OCR expert models" and inefficient "General VLMs". 2) Streamlined End-to-End Architecture: Adopting a pure end-to-end paradigm eliminates dependencies on pre-processing modules (e.g., layout analysis). This fundamentally resolves error propagation common in traditional pipelines and simplifies system deployment. 3) Data-Driven and RL Strategies: We confirm the critical role of high-quality data and, for the first time in the industry, demonstrate that Reinforcement Learning (RL) strategies yield significant performance gains in OCR tasks.
HunyuanOCR is officially open-sourced on HuggingFace. We also provide a high-performance deployment solution based on vLLM, placing its production efficiency in the top tier. We hope this model will advance frontier research and provide a solid foundation for industrial applications.