ChatPaper.aiChatPaper

훈위안 OCR 기술 보고서

HunyuanOCR Technical Report

November 24, 2025
저자: Hunyuan Vision Team, Pengyuan Lyu, Xingyu Wan, Gengluo Li, Shangpin Peng, Weinong Wang, Liang Wu, Huawen Shen, Yu Zhou, Canhui Tang, Qi Yang, Qiming Peng, Bin Luo, Hower Yang, Houwen Peng, Hongming Yang, Senhao Xie, Binghong Wu, Mana Yang, Sergey Wang, Raccoon Liu, Dick Zhu, Jie Jiang, Linus, Han Hu, Chengquan Zhang
cs.AI

초록

본 논문은 OCR 작업에 특화된 상용 등급의 오픈소스 경량(10억 개 파라미터) Vision-Language Model(VLM)인 HunyuanOCR을 제안한다. 이 아키텍처는 MLP 어댑터로 연결된 Native Vision Transformer(ViT)와 경량 LLM으로 구성된다. HunyuanOCR은 상용 API, 기존 파이프라인, 더 큰 모델(예: Qwen3-VL-4B)을 능가하는 우수한 성능을 입증하였다. 특히 인식 작업(Text Spotting, Parsing)에서 현재 공개된 솔루션들을 앞섰으며, 의미론적 작업(IE, Text Image Translation)에서도 뛰어나 ICDAR 2025 DIMT Challenge(Small Model Track)에서 1위를 차지했다. 또한 30억 개 미만 파라미터를 가진 VLM 중 OCRBench에서 SOTA 성능을 달성하였다. HunyuanOCR은 다음 세 가지 핵심 측면에서 돌파구를 마련했다. 1) **다양성과 효율성의 통합**: 경량 프레임워크 내에서 spotting, parsing, IE, VQA, translation 등 핵심 역량에 대한 포괄적 지원을 구현한다. 이는 협소한 "OCR 전문 모델"과 비효율적인 "범용 VLM"의 한계를 해결한다. 2) **간소화된 엔드투엔드 아키텍처**: 순수 엔드투엔드 패러다임을 채택하여 레이아웃 분석 등 전처리 모듈에 대한 의존성을 제거했다. 이는 기존 파이프라인에서 흔히 발생하는 오류 전파 문제를 근본적으로 해결하고 시스템 배포를 단순화한다. 3) **데이터 기반 및 RL 전략**: 고품질 데이터의 결정적 역할을 확인하고, 업계 최초로 OCR 작업에서 강화 학습(RL) 전략이 상당한 성능 향상을 가져온다는 점을 입증했다. HunyuanOCR은 HuggingFace를 통해 정식 오픈소스로 공개되었다. 또한 vLLM 기반의 고성능 배포 솔루션을 제공하여 생산성 효율을 최상위 수준으로 유지한다. 본 모델이 첨단 연구를 촉진하고 산업 적용을 위한 견고한 기반을 제공하기를 기대한다.
English
This paper presents HunyuanOCR, a commercial-grade, open-source, and lightweight (1B parameters) Vision-Language Model (VLM) dedicated to OCR tasks. The architecture comprises a Native Vision Transformer (ViT) and a lightweight LLM connected via an MLP adapter. HunyuanOCR demonstrates superior performance, outperforming commercial APIs, traditional pipelines, and larger models (e.g., Qwen3-VL-4B). Specifically, it surpasses current public solutions in perception tasks (Text Spotting, Parsing) and excels in semantic tasks (IE, Text Image Translation), securing first place in the ICDAR 2025 DIMT Challenge (Small Model Track). Furthermore, it achieves state-of-the-art (SOTA) results on OCRBench among VLMs with fewer than 3B parameters. HunyuanOCR achieves breakthroughs in three key aspects: 1) Unifying Versatility and Efficiency: We implement comprehensive support for core capabilities including spotting, parsing, IE, VQA, and translation within a lightweight framework. This addresses the limitations of narrow "OCR expert models" and inefficient "General VLMs". 2) Streamlined End-to-End Architecture: Adopting a pure end-to-end paradigm eliminates dependencies on pre-processing modules (e.g., layout analysis). This fundamentally resolves error propagation common in traditional pipelines and simplifies system deployment. 3) Data-Driven and RL Strategies: We confirm the critical role of high-quality data and, for the first time in the industry, demonstrate that Reinforcement Learning (RL) strategies yield significant performance gains in OCR tasks. HunyuanOCR is officially open-sourced on HuggingFace. We also provide a high-performance deployment solution based on vLLM, placing its production efficiency in the top tier. We hope this model will advance frontier research and provide a solid foundation for industrial applications.
PDF183December 1, 2025