ChatPaper.aiChatPaper

HunyuanCustom: Un'architettura guidata da multimodalità per la generazione di video personalizzati

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7, 2025
Autori: Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu
cs.AI

Abstract

La generazione personalizzata di video mira a produrre video che presentano soggetti specifici in condizioni flessibili definite dall'utente, tuttavia i metodi esistenti spesso incontrano difficoltà nella coerenza dell'identità e nelle modalità di input limitate. In questo articolo, proponiamo HunyuanCustom, un framework di generazione personalizzata di video multi-modale che enfatizza la coerenza del soggetto supportando condizioni di immagine, audio, video e testo. Basato su HunyuanVideo, il nostro modello affronta prima il compito di generazione condizionata da immagine e testo introducendo un modulo di fusione testo-immagine basato su LLaVA per una migliore comprensione multi-modale, insieme a un modulo di potenziamento dell'ID immagine che sfrutta la concatenazione temporale per rafforzare le caratteristiche dell'identità tra i fotogrammi. Per abilitare la generazione condizionata da audio e video, proponiamo ulteriori meccanismi di iniezione di condizioni specifici per la modalità: un modulo AudioNet che raggiunge un allineamento gerarchico tramite l'attenzione incrociata spaziale, e un modulo di iniezione guidato da video che integra il video condizionato compresso in latente attraverso una rete di allineamento delle feature basata su patchify. Esperimenti estesi su scenari con uno e più soggetti dimostrano che HunyuanCustom supera significativamente i metodi open-source e closed-source più avanzati in termini di coerenza dell'ID, realismo e allineamento testo-video. Inoltre, ne validiamo la robustezza in vari compiti downstream, inclusa la generazione personalizzata di video guidata da audio e video. I nostri risultati evidenziano l'efficacia delle strategie di condizionamento multi-modale e di preservazione dell'identità nel far progredire la generazione controllata di video. Tutti i codici e i modelli sono disponibili all'indirizzo https://hunyuancustom.github.io.
English
Customized video generation aims to produce videos featuring specific subjects under flexible user-defined conditions, yet existing methods often struggle with identity consistency and limited input modalities. In this paper, we propose HunyuanCustom, a multi-modal customized video generation framework that emphasizes subject consistency while supporting image, audio, video, and text conditions. Built upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms: an AudioNet module that achieves hierarchical alignment via spatial cross-attention, and a video-driven injection module that integrates latent-compressed conditional video through a patchify-based feature-alignment network. Extensive experiments on single- and multi-subject scenarios demonstrate that HunyuanCustom significantly outperforms state-of-the-art open- and closed-source methods in terms of ID consistency, realism, and text-video alignment. Moreover, we validate its robustness across downstream tasks, including audio and video-driven customized video generation. Our results highlight the effectiveness of multi-modal conditioning and identity-preserving strategies in advancing controllable video generation. All the code and models are available at https://hunyuancustom.github.io.
PDF363May 8, 2025