HunyuanCustom: Uma Arquitetura Orientada por Multimodalidade para Geração de Vídeos Personalizados
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation
May 7, 2025
Autores: Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu
cs.AI
Resumo
A geração de vídeos personalizados visa produzir vídeos que apresentam
sujeitos específicos sob condições flexíveis definidas pelo usuário, mas os
métodos existentes frequentemente enfrentam desafios com a consistência de
identidade e modalidades de entrada limitadas. Neste artigo, propomos o
HunyuanCustom, um framework de geração de vídeos personalizados multi-modal que
enfatiza a consistência do sujeito enquanto suporta condições de imagem, áudio,
vídeo e texto. Construído sobre o HunyuanVideo, nosso modelo primeiro aborda a
tarefa de geração condicionada por imagem e texto, introduzindo um módulo de
fusão texto-imagem baseado no LLaVA para aprimorar a compreensão multi-modal,
juntamente com um módulo de aprimoramento de ID de imagem que utiliza
concatenação temporal para reforçar as características de identidade entre os
quadros. Para habilitar a geração condicionada por áudio e vídeo, propomos
mecanismos de injeção de condições específicos para cada modalidade: um módulo
AudioNet que alcança alinhamento hierárquico via atenção cruzada espacial, e um
módulo de injeção guiado por vídeo que integra vídeo condicional comprimido em
latente através de uma rede de alinhamento de características baseada em
patchify. Experimentos extensivos em cenários de sujeito único e multi-sujeito
demonstram que o HunyuanCustom supera significativamente os métodos state-of-
the-art de código aberto e fechado em termos de consistência de ID, realismo e
alinhamento texto-vídeo. Além disso, validamos sua robustez em tarefas
subsequentes, incluindo geração de vídeos personalizados guiados por áudio e
vídeo. Nossos resultados destacam a eficácia das estratégias de condicionamento
multi-modal e de preservação de identidade no avanço da geração de vídeos
controlável. Todo o código e modelos estão disponíveis em
https://hunyuancustom.github.io.
English
Customized video generation aims to produce videos featuring specific
subjects under flexible user-defined conditions, yet existing methods often
struggle with identity consistency and limited input modalities. In this paper,
we propose HunyuanCustom, a multi-modal customized video generation framework
that emphasizes subject consistency while supporting image, audio, video, and
text conditions. Built upon HunyuanVideo, our model first addresses the
image-text conditioned generation task by introducing a text-image fusion
module based on LLaVA for enhanced multi-modal understanding, along with an
image ID enhancement module that leverages temporal concatenation to reinforce
identity features across frames. To enable audio- and video-conditioned
generation, we further propose modality-specific condition injection
mechanisms: an AudioNet module that achieves hierarchical alignment via spatial
cross-attention, and a video-driven injection module that integrates
latent-compressed conditional video through a patchify-based feature-alignment
network. Extensive experiments on single- and multi-subject scenarios
demonstrate that HunyuanCustom significantly outperforms state-of-the-art open-
and closed-source methods in terms of ID consistency, realism, and text-video
alignment. Moreover, we validate its robustness across downstream tasks,
including audio and video-driven customized video generation. Our results
highlight the effectiveness of multi-modal conditioning and identity-preserving
strategies in advancing controllable video generation. All the code and models
are available at https://hunyuancustom.github.io.