Relatório Técnico do HunyuanOCR

Resumo

Este artigo apresenta o HunyuanOCR, um Modelo de Linguagem de Visão (VLM) comercial, de código aberto e leve (1B de parâmetros) dedicado a tarefas de OCR. A arquitetura compreende um Vision Transformer (ViT) Nativo e um LLM leve conectados por meio de um adaptador MLP. O HunyuanOCR demonstra desempenho superior, superando APIs comerciais, pipelines tradicionais e modelos maiores (por exemplo, Qwen3-VL-4B). Especificamente, ele supera as soluções públicas atuais em tarefas de perceção (Detecção de Texto, Análise) e destaca-se em tarefas semânticas (IE, Tradução de Imagem-Texto), conquistando o primeiro lugar no Desafio ICDAR 2025 DIMT (Modalidade de Modelos Pequenos). Além disso, atinge resultados state-of-the-art (SOTA) no OCRBench entre VLMs com menos de 3B de parâmetros. O HunyuanOCR alcança avanços em três aspetos principais: 1) Unificação de Versatilidade e Eficiência: Implementamos suporte abrangente para capacidades essenciais, incluindo deteção, análise, IE, VQA e tradução, numa estrutura leve. Isto resolve as limitações dos estreitos "modelos especialistas em OCR" e dos ineficientes "VLMs Gerais". 2) Arquitetura Simplificada End-to-End: A adoção de um paradigma puramente end-to-end elimina dependências de módulos de pré-processamento (ex: análise de layout). Isto resolve fundamentalmente a propagação de erros comum nos pipelines tradicionais e simplifica a implantação do sistema. 3) Estratégias Baseadas em Dados e RL: Confirmamos o papel crucial de dados de alta qualidade e, pela primeira vez na indústria, demonstramos que estratégias de Aprendizagem por Reforço (RL) produzem ganhos significativos de desempenho em tarefas de OCR. O HunyuanOCR é oficialmente de código aberto no HuggingFace. Também fornecemos uma solução de implantação de alto desempenho baseada no vLLM, posicionando a sua eficiência produtiva no nível mais alto. Esperamos que este modelo impulse a investigação de ponta e forneça uma base sólida para aplicações industriais.

English

This paper presents HunyuanOCR, a commercial-grade, open-source, and lightweight (1B parameters) Vision-Language Model (VLM) dedicated to OCR tasks. The architecture comprises a Native Vision Transformer (ViT) and a lightweight LLM connected via an MLP adapter. HunyuanOCR demonstrates superior performance, outperforming commercial APIs, traditional pipelines, and larger models (e.g., Qwen3-VL-4B). Specifically, it surpasses current public solutions in perception tasks (Text Spotting, Parsing) and excels in semantic tasks (IE, Text Image Translation), securing first place in the ICDAR 2025 DIMT Challenge (Small Model Track). Furthermore, it achieves state-of-the-art (SOTA) results on OCRBench among VLMs with fewer than 3B parameters. HunyuanOCR achieves breakthroughs in three key aspects: 1) Unifying Versatility and Efficiency: We implement comprehensive support for core capabilities including spotting, parsing, IE, VQA, and translation within a lightweight framework. This addresses the limitations of narrow "OCR expert models" and inefficient "General VLMs". 2) Streamlined End-to-End Architecture: Adopting a pure end-to-end paradigm eliminates dependencies on pre-processing modules (e.g., layout analysis). This fundamentally resolves error propagation common in traditional pipelines and simplifies system deployment. 3) Data-Driven and RL Strategies: We confirm the critical role of high-quality data and, for the first time in the industry, demonstrate that Reinforcement Learning (RL) strategies yield significant performance gains in OCR tasks. HunyuanOCR is officially open-sourced on HuggingFace. We also provide a high-performance deployment solution based on vLLM, placing its production efficiency in the top tier. We hope this model will advance frontier research and provide a solid foundation for industrial applications.

Relatório Técnico do HunyuanOCR

HunyuanOCR Technical Report

Resumo

Support