HunyuanVideo 1.5 技术报告

Resumo

Apresentamos o HunyuanVideo 1.5, um modelo de geração de vídeo de código aberto, leve e poderoso, que atinge qualidade visual e coerência de movimento de última geração com apenas 8,3 mil milhões de parâmetros, permitindo inferência eficiente em GPUs de nível consumidor. Esta conquista é baseada em vários componentes-chave, incluindo uma curadoria meticulosa de dados, uma arquitetura DiT avançada com atenção seletiva e deslizante por blocos (SSTA), compreensão bilíngue aprimorada por meio de codificação de texto consciente de glifos, pré-treinamento e pós-treinamento progressivos, e uma rede eficiente de super-resolução de vídeo. Aproveitando estes projetos, desenvolvemos uma estrutura unificada capaz de gerar vídeos de alta qualidade a partir de texto e a partir de imagem em várias durações e resoluções. Experiências extensivas demonstram que este modelo compacto e proficiente estabelece um novo estado da arte entre os modelos de geração de vídeo de código aberto. Ao disponibilizar o código e os pesos do modelo, fornecemos à comunidade uma base de alto desempenho que reduz a barreira para a criação e investigação de vídeo, tornando a geração avançada de vídeo acessível a um público mais amplo. Todos os recursos de código aberto estão publicamente disponíveis em https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.

English

We present HunyuanVideo 1.5, a lightweight yet powerful open-source video generation model that achieves state-of-the-art visual quality and motion coherence with only 8.3 billion parameters, enabling efficient inference on consumer-grade GPUs. This achievement is built upon several key components, including meticulous data curation, an advanced DiT architecture featuring selective and sliding tile attention (SSTA), enhanced bilingual understanding through glyph-aware text encoding, progressive pre-training and post-training, and an efficient video super-resolution network. Leveraging these designs, we developed a unified framework capable of high-quality text-to-video and image-to-video generation across multiple durations and resolutions.Extensive experiments demonstrate that this compact and proficient model establishes a new state-of-the-art among open-source video generation models. By releasing the code and model weights, we provide the community with a high-performance foundation that lowers the barrier to video creation and research, making advanced video generation accessible to a broader audience. All open-source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.