ChatPaper.aiChatPaper

HunyuanOCR技术报告

HunyuanOCR Technical Report

November 24, 2025
著者: Hunyuan Vision Team, Pengyuan Lyu, Xingyu Wan, Gengluo Li, Shangpin Peng, Weinong Wang, Liang Wu, Huawen Shen, Yu Zhou, Canhui Tang, Qi Yang, Qiming Peng, Bin Luo, Hower Yang, Houwen Peng, Hongming Yang, Senhao Xie, Binghong Wu, Mana Yang, Sergey Wang, Raccoon Liu, Dick Zhu, Jie Jiang, Linus, Han Hu, Chengquan Zhang
cs.AI

要旨

本論文は、OCRタスクに特化した商用グレードのオープンソース軽量(10億パラメータ)ビジョン言語モデル(VLM)、HunyuanOCRを提案する。本アーキテクチャは、Native Vision Transformer(ViT)と軽量LLMをMLPアダプタで接続した構造を採用している。HunyuanOCRは優れた性能を示し、商用API、従来のパイプライン、および大規模モデル(例:Qwen3-VL-4B)を上回る。具体的には、知覚タスク(文字領域検出・認識、構造解析)において現行の公開ソリューションを凌駕し、意味理解タスク(情報抽出、画像翻訳)でも卓越した性能を発揮し、ICDAR 2025 DIMT Challenge(小型モデル部門)で一位を獲得した。さらに、30億パラメータ未満のVLMにおいてOCRBenchでState-of-the-Art(SOTA)を達成した。 HunyuanOCRは以下の3つの重要な側面でブレークスルーを実現している:1)**多機能性と効率性の統一**:軽量フレームワーク内で、文字領域検出・認識、構造解析、情報抽出、視覚質問応答、翻訳といった中核機能を包括的にサポートする。これにより、機能が限定された「OCR専門モデル」と非効率な「汎用VLM」の課題を解決する。2)**効率化されたエンドツーエンドアーキテクチャ**:純粋なエンドツーエンドパラダイムを採用し、レイアウト解析などの前処理モジュールへの依存を排除した。これにより、従来パイプラインで一般的な誤伝播の問題を根本的に解決し、システム導入を簡素化する。3)**データ駆動と強化学習戦略**:高品質なデータの重要性を確認するとともに、業界で初めて、強化学習(RL)戦略がOCRタスクで顕著な性能向上をもたらすことを実証した。 HunyuanOCRはHuggingFace上で公式にオープンソース化されている。また、vLLMに基づく高性能なデプロイメントソリューションも提供しており、その実用環境での効率性は最高水準にある。本モデルが最先端研究を推進し、産業応用の強固な基盤を提供することを期待する。
English
This paper presents HunyuanOCR, a commercial-grade, open-source, and lightweight (1B parameters) Vision-Language Model (VLM) dedicated to OCR tasks. The architecture comprises a Native Vision Transformer (ViT) and a lightweight LLM connected via an MLP adapter. HunyuanOCR demonstrates superior performance, outperforming commercial APIs, traditional pipelines, and larger models (e.g., Qwen3-VL-4B). Specifically, it surpasses current public solutions in perception tasks (Text Spotting, Parsing) and excels in semantic tasks (IE, Text Image Translation), securing first place in the ICDAR 2025 DIMT Challenge (Small Model Track). Furthermore, it achieves state-of-the-art (SOTA) results on OCRBench among VLMs with fewer than 3B parameters. HunyuanOCR achieves breakthroughs in three key aspects: 1) Unifying Versatility and Efficiency: We implement comprehensive support for core capabilities including spotting, parsing, IE, VQA, and translation within a lightweight framework. This addresses the limitations of narrow "OCR expert models" and inefficient "General VLMs". 2) Streamlined End-to-End Architecture: Adopting a pure end-to-end paradigm eliminates dependencies on pre-processing modules (e.g., layout analysis). This fundamentally resolves error propagation common in traditional pipelines and simplifies system deployment. 3) Data-Driven and RL Strategies: We confirm the critical role of high-quality data and, for the first time in the industry, demonstrate that Reinforcement Learning (RL) strategies yield significant performance gains in OCR tasks. HunyuanOCR is officially open-sourced on HuggingFace. We also provide a high-performance deployment solution based on vLLM, placing its production efficiency in the top tier. We hope this model will advance frontier research and provide a solid foundation for industrial applications.
PDF183December 1, 2025