HunyuanCustom: Een multimodale architectuur voor gepersonaliseerde videogeneratie
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation
May 7, 2025
Auteurs: Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu
cs.AI
Samenvatting
Gepersonaliseerde videogeneratie heeft als doel video's te produceren met specifieke onderwerpen onder flexibele, door de gebruiker gedefinieerde voorwaarden, maar bestaande methoden hebben vaak moeite met identiteitsconsistentie en beperkte invoermodaliteiten. In dit artikel stellen we HunyuanCustom voor, een multi-modale gepersonaliseerde videogeneratieframework dat de nadruk legt op onderwerpconsistentie en tegelijkertijd beeld-, audio-, video- en tekstcondities ondersteunt. Gebaseerd op HunyuanVideo, behandelt ons model eerst de beeld-tekst-geconditioneerde generatietaak door een tekst-beeld-fusiemodule te introduceren op basis van LLaVA voor verbeterd multi-modale begrip, samen met een beeld-ID-versterkingsmodule die gebruikmaakt van temporele concatenatie om identiteitskenmerken over frames heen te versterken. Om audio- en video-geconditioneerde generatie mogelijk te maken, stellen we verder modaliteitsspecifieke conditie-injectiemechanismen voor: een AudioNet-module die hiërarchische uitlijning bereikt via ruimtelijke kruisattentie, en een video-gestuurde injectiemodule die latent-gecomprimeerde conditionele video integreert via een patchify-gebaseerd kenmerk-uitlijningsnetwerk. Uitgebreide experimenten in scenario's met één en meerdere onderwerpen tonen aan dat HunyuanCustom aanzienlijk beter presteert dan state-of-the-art open- en closed-source methoden wat betreft ID-consistentie, realisme en tekst-video-uitlijning. Bovendien valideren we de robuustheid ervan over verschillende downstream taken, waaronder audio- en video-gestuurde gepersonaliseerde videogeneratie. Onze resultaten benadrukken de effectiviteit van multi-modale conditionering en identiteitsbehoudstrategieën in het bevorderen van controleerbare videogeneratie. Alle code en modellen zijn beschikbaar op https://hunyuancustom.github.io.
English
Customized video generation aims to produce videos featuring specific
subjects under flexible user-defined conditions, yet existing methods often
struggle with identity consistency and limited input modalities. In this paper,
we propose HunyuanCustom, a multi-modal customized video generation framework
that emphasizes subject consistency while supporting image, audio, video, and
text conditions. Built upon HunyuanVideo, our model first addresses the
image-text conditioned generation task by introducing a text-image fusion
module based on LLaVA for enhanced multi-modal understanding, along with an
image ID enhancement module that leverages temporal concatenation to reinforce
identity features across frames. To enable audio- and video-conditioned
generation, we further propose modality-specific condition injection
mechanisms: an AudioNet module that achieves hierarchical alignment via spatial
cross-attention, and a video-driven injection module that integrates
latent-compressed conditional video through a patchify-based feature-alignment
network. Extensive experiments on single- and multi-subject scenarios
demonstrate that HunyuanCustom significantly outperforms state-of-the-art open-
and closed-source methods in terms of ID consistency, realism, and text-video
alignment. Moreover, we validate its robustness across downstream tasks,
including audio and video-driven customized video generation. Our results
highlight the effectiveness of multi-modal conditioning and identity-preserving
strategies in advancing controllable video generation. All the code and models
are available at https://hunyuancustom.github.io.