HunyuanCustom: Uma Arquitetura Orientada por Multimodalidade para Geração de Vídeos Personalizados

Resumo

A geração de vídeos personalizados visa produzir vídeos que apresentam sujeitos específicos sob condições flexíveis definidas pelo usuário, mas os métodos existentes frequentemente enfrentam desafios com a consistência de identidade e modalidades de entrada limitadas. Neste artigo, propomos o HunyuanCustom, um framework de geração de vídeos personalizados multi-modal que enfatiza a consistência do sujeito enquanto suporta condições de imagem, áudio, vídeo e texto. Construído sobre o HunyuanVideo, nosso modelo primeiro aborda a tarefa de geração condicionada por imagem e texto, introduzindo um módulo de fusão texto-imagem baseado no LLaVA para aprimorar a compreensão multi-modal, juntamente com um módulo de aprimoramento de ID de imagem que utiliza concatenação temporal para reforçar as características de identidade entre os quadros. Para habilitar a geração condicionada por áudio e vídeo, propomos mecanismos de injeção de condições específicos para cada modalidade: um módulo AudioNet que alcança alinhamento hierárquico via atenção cruzada espacial, e um módulo de injeção guiado por vídeo que integra vídeo condicional comprimido em latente através de uma rede de alinhamento de características baseada em patchify. Experimentos extensivos em cenários de sujeito único e multi-sujeito demonstram que o HunyuanCustom supera significativamente os métodos state-of- the-art de código aberto e fechado em termos de consistência de ID, realismo e alinhamento texto-vídeo. Além disso, validamos sua robustez em tarefas subsequentes, incluindo geração de vídeos personalizados guiados por áudio e vídeo. Nossos resultados destacam a eficácia das estratégias de condicionamento multi-modal e de preservação de identidade no avanço da geração de vídeos controlável. Todo o código e modelos estão disponíveis em https://hunyuancustom.github.io.

English

Customized video generation aims to produce videos featuring specific subjects under flexible user-defined conditions, yet existing methods often struggle with identity consistency and limited input modalities. In this paper, we propose HunyuanCustom, a multi-modal customized video generation framework that emphasizes subject consistency while supporting image, audio, video, and text conditions. Built upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms: an AudioNet module that achieves hierarchical alignment via spatial cross-attention, and a video-driven injection module that integrates latent-compressed conditional video through a patchify-based feature-alignment network. Extensive experiments on single- and multi-subject scenarios demonstrate that HunyuanCustom significantly outperforms state-of-the-art open- and closed-source methods in terms of ID consistency, realism, and text-video alignment. Moreover, we validate its robustness across downstream tasks, including audio and video-driven customized video generation. Our results highlight the effectiveness of multi-modal conditioning and identity-preserving strategies in advancing controllable video generation. All the code and models are available at https://hunyuancustom.github.io.

HunyuanCustom: Uma Arquitetura Orientada por Multimodalidade para Geração de Vídeos Personalizados

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

Resumo

Support