ChatPaper.aiChatPaper

HunyuanCustom: Een multimodale architectuur voor gepersonaliseerde videogeneratie

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7, 2025
Auteurs: Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu
cs.AI

Samenvatting

Gepersonaliseerde videogeneratie heeft als doel video's te produceren met specifieke onderwerpen onder flexibele, door de gebruiker gedefinieerde voorwaarden, maar bestaande methoden hebben vaak moeite met identiteitsconsistentie en beperkte invoermodaliteiten. In dit artikel stellen we HunyuanCustom voor, een multi-modale gepersonaliseerde videogeneratieframework dat de nadruk legt op onderwerpconsistentie en tegelijkertijd beeld-, audio-, video- en tekstcondities ondersteunt. Gebaseerd op HunyuanVideo, behandelt ons model eerst de beeld-tekst-geconditioneerde generatietaak door een tekst-beeld-fusiemodule te introduceren op basis van LLaVA voor verbeterd multi-modale begrip, samen met een beeld-ID-versterkingsmodule die gebruikmaakt van temporele concatenatie om identiteitskenmerken over frames heen te versterken. Om audio- en video-geconditioneerde generatie mogelijk te maken, stellen we verder modaliteitsspecifieke conditie-injectiemechanismen voor: een AudioNet-module die hiërarchische uitlijning bereikt via ruimtelijke kruisattentie, en een video-gestuurde injectiemodule die latent-gecomprimeerde conditionele video integreert via een patchify-gebaseerd kenmerk-uitlijningsnetwerk. Uitgebreide experimenten in scenario's met één en meerdere onderwerpen tonen aan dat HunyuanCustom aanzienlijk beter presteert dan state-of-the-art open- en closed-source methoden wat betreft ID-consistentie, realisme en tekst-video-uitlijning. Bovendien valideren we de robuustheid ervan over verschillende downstream taken, waaronder audio- en video-gestuurde gepersonaliseerde videogeneratie. Onze resultaten benadrukken de effectiviteit van multi-modale conditionering en identiteitsbehoudstrategieën in het bevorderen van controleerbare videogeneratie. Alle code en modellen zijn beschikbaar op https://hunyuancustom.github.io.
English
Customized video generation aims to produce videos featuring specific subjects under flexible user-defined conditions, yet existing methods often struggle with identity consistency and limited input modalities. In this paper, we propose HunyuanCustom, a multi-modal customized video generation framework that emphasizes subject consistency while supporting image, audio, video, and text conditions. Built upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms: an AudioNet module that achieves hierarchical alignment via spatial cross-attention, and a video-driven injection module that integrates latent-compressed conditional video through a patchify-based feature-alignment network. Extensive experiments on single- and multi-subject scenarios demonstrate that HunyuanCustom significantly outperforms state-of-the-art open- and closed-source methods in terms of ID consistency, realism, and text-video alignment. Moreover, we validate its robustness across downstream tasks, including audio and video-driven customized video generation. Our results highlight the effectiveness of multi-modal conditioning and identity-preserving strategies in advancing controllable video generation. All the code and models are available at https://hunyuancustom.github.io.
PDF353May 8, 2025