Технический отчет по системе HunyuanOCR
HunyuanOCR Technical Report
November 24, 2025
Авторы: Hunyuan Vision Team, Pengyuan Lyu, Xingyu Wan, Gengluo Li, Shangpin Peng, Weinong Wang, Liang Wu, Huawen Shen, Yu Zhou, Canhui Tang, Qi Yang, Qiming Peng, Bin Luo, Hower Yang, Houwen Peng, Hongming Yang, Senhao Xie, Binghong Wu, Mana Yang, Sergey Wang, Raccoon Liu, Dick Zhu, Jie Jiang, Linus, Han Hu, Chengquan Zhang
cs.AI
Аннотация
В данной статье представлена HunyuanOCR — коммерческая, открытая и легковесная (1 млрд параметров) визуально-языковая модель (VLM), предназначенная для задач оптического распознавания символов (OCR). Архитектура модели состоит из нативного Vision Transformer (ViT) и легковесной большой языковой модели (LLM), соединенных через MLP-адаптер. HunyuanOCR демонстрирует превосходную производительность, превосходя коммерческие API, традиционные пайплайны и более крупные модели (например, Qwen3-VL-4B). В частности, модель превосходит текущие публичные решения в задачах восприятия (детекция и разбор текста) и преуспевает в семантических задачах (информационное извлечение, перевод текста с изображений), заняв первое место в соревновании ICDAR 2025 DIMT Challenge (трек малых моделей). Кроме того, модель достигает передовых (SOTA) результатов на бенчмарке OCRBench среди VLM с менее чем 3 млрд параметров.
HunyuanOCR обеспечивает прорыв в трех ключевых аспектах: 1) **Объединение универсальности и эффективности**: Мы реализовали полную поддержку ключевых возможностей, включая детекцию, разбор текста, информационное извлечение, визуальный вопросно-ответный режим и перевод, в рамках легковесной архитектуры. Это решает проблемы узкоспециализированных «экспертных OCR-моделей» и неэффективных «универсальных VLM». 2) **Упрощенная сквозная архитектура**: Использование чистой сквозной парадигмы устраняет зависимость от модулей предобработки (например, анализа макета). Это фундаментально решает проблему накопления ошибок, характерную для традиционных пайплайнов, и упрощает развертывание системы. 3) **Стратегии на основе данных и обучения с подкреплением**: Мы подтверждаем критическую важность высококачественных данных и впервые в индустрии демонстрируем, что стратегии обучения с подкреплением (RL) обеспечивают значительное улучшение производительности в задачах OCR.
HunyuanOCR официально открыта на HuggingFace. Мы также предоставляем высокопроизводительное решение для развертывания на основе vLLM, которое выводит эффективность модели в промышленной эксплуатации на ведущий уровень. Мы надеемся, что данная модель будет способствовать развитию передовых исследований и послужит надежной основой для промышленных приложений.
English
This paper presents HunyuanOCR, a commercial-grade, open-source, and lightweight (1B parameters) Vision-Language Model (VLM) dedicated to OCR tasks. The architecture comprises a Native Vision Transformer (ViT) and a lightweight LLM connected via an MLP adapter. HunyuanOCR demonstrates superior performance, outperforming commercial APIs, traditional pipelines, and larger models (e.g., Qwen3-VL-4B). Specifically, it surpasses current public solutions in perception tasks (Text Spotting, Parsing) and excels in semantic tasks (IE, Text Image Translation), securing first place in the ICDAR 2025 DIMT Challenge (Small Model Track). Furthermore, it achieves state-of-the-art (SOTA) results on OCRBench among VLMs with fewer than 3B parameters.
HunyuanOCR achieves breakthroughs in three key aspects: 1) Unifying Versatility and Efficiency: We implement comprehensive support for core capabilities including spotting, parsing, IE, VQA, and translation within a lightweight framework. This addresses the limitations of narrow "OCR expert models" and inefficient "General VLMs". 2) Streamlined End-to-End Architecture: Adopting a pure end-to-end paradigm eliminates dependencies on pre-processing modules (e.g., layout analysis). This fundamentally resolves error propagation common in traditional pipelines and simplifies system deployment. 3) Data-Driven and RL Strategies: We confirm the critical role of high-quality data and, for the first time in the industry, demonstrate that Reinforcement Learning (RL) strategies yield significant performance gains in OCR tasks.
HunyuanOCR is officially open-sourced on HuggingFace. We also provide a high-performance deployment solution based on vLLM, placing its production efficiency in the top tier. We hope this model will advance frontier research and provide a solid foundation for industrial applications.