ChatPaper.aiChatPaper

HunyuanOCR Technischer Bericht

HunyuanOCR Technical Report

November 24, 2025
papers.authors: Hunyuan Vision Team, Pengyuan Lyu, Xingyu Wan, Gengluo Li, Shangpin Peng, Weinong Wang, Liang Wu, Huawen Shen, Yu Zhou, Canhui Tang, Qi Yang, Qiming Peng, Bin Luo, Hower Yang, Houwen Peng, Hongming Yang, Senhao Xie, Binghong Wu, Mana Yang, Sergey Wang, Raccoon Liu, Dick Zhu, Jie Jiang, Linus, Han Hu, Chengquan Zhang
cs.AI

papers.abstract

Dieses Papier stellt HunyuanOCR vor, ein kommerziell einsetzbares, quelloffenes und schlankes (1B Parameter) Vision-Language-Model (VLM) für OCR-Aufgaben. Die Architektur besteht aus einem nativen Vision Transformer (ViT) und einem schlanken LLM, die über einen MLP-Adapter verbunden sind. HunyuanOCR zeigt eine überlegene Leistung und übertrifft kommerzielle APIs, traditionelle Pipelines und größere Modelle (z.B. Qwen3-VL-4B). Insbesondere übertrifft es aktuelle öffentliche Lösungen in Wahrnehmungsaufgaben (Text Spotting, Parsing) und glänzt in semantischen Aufgaben (IE, Text Image Translation), womit es den ersten Platz beim ICDAR 2025 DIMT Challenge (Small Model Track) sicherte. Darüber hinaus erzielt es state-of-the-art (SOTA) Ergebnisse auf OCRBench unter VLMs mit weniger als 3B Parametern. HunyuanOCR erzielt Durchbrüche in drei Schlüsselbereichen: 1) Vereinigung von Vielseitigkeit und Effizienz: Wir implementieren umfassende Unterstützung für Kernfähigkeiten wie Spotting, Parsing, IE, VQA und Übersetzung innerhalb eines schlanken Frameworks. Dies behebt die Einschränkungen von spezialisierten "OCR-Expertmodellen" und ineffizienten "Allgemeinen VLMs". 2) Vereinfachte End-to-End-Architektur: Die Übernahme eines reinen End-to-End-Paradigmas eliminiert Abhängigkeiten von Vorverarbeitungsmodulen (z.B. Layoutanalyse). Dies löst grundlegend die in traditionellen Pipelines verbreitete Fehlerfortpflanzung und vereinfacht die Systembereitstellung. 3) Datengetriebene und RL-Strategien: Wir bestätigen die kritische Rolle hochwertiger Daten und demonstrieren erstmals in der Branche, dass Reinforcement-Learning (RL)-Strategien signifikante Leistungssteigerungen bei OCR-Aufgaben bewirken. HunyuanOCR ist offiziell auf HuggingFace quelloffen verfügbar. Wir stellen ebenfalls eine hochperformante Bereitstellungslösung auf Basis von vLLM bereit, die seine Produktionseffizienz in die Spitzenklasse einordnet. Wir hoffen, dass dieses Modell die Spitzenforschung voranbringt und eine solide Grundlage für industrielle Anwendungen bietet.
English
This paper presents HunyuanOCR, a commercial-grade, open-source, and lightweight (1B parameters) Vision-Language Model (VLM) dedicated to OCR tasks. The architecture comprises a Native Vision Transformer (ViT) and a lightweight LLM connected via an MLP adapter. HunyuanOCR demonstrates superior performance, outperforming commercial APIs, traditional pipelines, and larger models (e.g., Qwen3-VL-4B). Specifically, it surpasses current public solutions in perception tasks (Text Spotting, Parsing) and excels in semantic tasks (IE, Text Image Translation), securing first place in the ICDAR 2025 DIMT Challenge (Small Model Track). Furthermore, it achieves state-of-the-art (SOTA) results on OCRBench among VLMs with fewer than 3B parameters. HunyuanOCR achieves breakthroughs in three key aspects: 1) Unifying Versatility and Efficiency: We implement comprehensive support for core capabilities including spotting, parsing, IE, VQA, and translation within a lightweight framework. This addresses the limitations of narrow "OCR expert models" and inefficient "General VLMs". 2) Streamlined End-to-End Architecture: Adopting a pure end-to-end paradigm eliminates dependencies on pre-processing modules (e.g., layout analysis). This fundamentally resolves error propagation common in traditional pipelines and simplifies system deployment. 3) Data-Driven and RL Strategies: We confirm the critical role of high-quality data and, for the first time in the industry, demonstrate that Reinforcement Learning (RL) strategies yield significant performance gains in OCR tasks. HunyuanOCR is officially open-sourced on HuggingFace. We also provide a high-performance deployment solution based on vLLM, placing its production efficiency in the top tier. We hope this model will advance frontier research and provide a solid foundation for industrial applications.
PDF183December 1, 2025