HunyuanCustom : Une architecture pilotée par multimodalité pour la génération de vidéos personnalisées
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation
May 7, 2025
Auteurs: Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu
cs.AI
Résumé
La génération de vidéos personnalisées vise à produire des vidéos mettant en scène des sujets spécifiques sous des conditions flexibles définies par l'utilisateur, mais les méthodes existantes rencontrent souvent des difficultés avec la cohérence d'identité et les modalités d'entrée limitées. Dans cet article, nous proposons HunyuanCustom, un cadre de génération de vidéos personnalisées multi-modales qui met l'accent sur la cohérence du sujet tout en prenant en charge les conditions d'image, d'audio, de vidéo et de texte. Basé sur HunyuanVideo, notre modèle aborde d'abord la tâche de génération conditionnée par image et texte en introduisant un module de fusion texte-image basé sur LLaVA pour une meilleure compréhension multi-modale, ainsi qu'un module d'amélioration d'identité d'image qui exploite la concaténation temporelle pour renforcer les caractéristiques d'identité à travers les images. Pour permettre la génération conditionnée par audio et vidéo, nous proposons en outre des mécanismes d'injection de conditions spécifiques à chaque modalité : un module AudioNet qui réalise un alignement hiérarchique via une attention croisée spatiale, et un module d'injection piloté par la vidéo qui intègre une vidéo conditionnelle compressée en latence à travers un réseau d'alignement de caractéristiques basé sur la patchification. Des expériences approfondies sur des scénarios à un seul sujet et à plusieurs sujets démontrent que HunyuanCustom surpasse significativement les méthodes open-source et propriétaires de pointe en termes de cohérence d'identité, de réalisme et d'alignement texte-vidéo. De plus, nous validons sa robustesse dans diverses tâches en aval, y compris la génération de vidéos personnalisées pilotées par l'audio et la vidéo. Nos résultats mettent en évidence l'efficacité des stratégies de conditionnement multi-modal et de préservation d'identité pour faire progresser la génération de vidéos contrôlables. Tous les codes et modèles sont disponibles à l'adresse https://hunyuancustom.github.io.
English
Customized video generation aims to produce videos featuring specific
subjects under flexible user-defined conditions, yet existing methods often
struggle with identity consistency and limited input modalities. In this paper,
we propose HunyuanCustom, a multi-modal customized video generation framework
that emphasizes subject consistency while supporting image, audio, video, and
text conditions. Built upon HunyuanVideo, our model first addresses the
image-text conditioned generation task by introducing a text-image fusion
module based on LLaVA for enhanced multi-modal understanding, along with an
image ID enhancement module that leverages temporal concatenation to reinforce
identity features across frames. To enable audio- and video-conditioned
generation, we further propose modality-specific condition injection
mechanisms: an AudioNet module that achieves hierarchical alignment via spatial
cross-attention, and a video-driven injection module that integrates
latent-compressed conditional video through a patchify-based feature-alignment
network. Extensive experiments on single- and multi-subject scenarios
demonstrate that HunyuanCustom significantly outperforms state-of-the-art open-
and closed-source methods in terms of ID consistency, realism, and text-video
alignment. Moreover, we validate its robustness across downstream tasks,
including audio and video-driven customized video generation. Our results
highlight the effectiveness of multi-modal conditioning and identity-preserving
strategies in advancing controllable video generation. All the code and models
are available at https://hunyuancustom.github.io.Summary
AI-Generated Summary