HunyuanCustom: 맞춤형 비디오 생성을 위한 다중 모드 기반 아키텍처
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation
May 7, 2025
저자: Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu
cs.AI
초록
맞춤형 비디오 생성은 사용자가 정의한 유연한 조건 하에서 특정 주체를 포함한 비디오를 제작하는 것을 목표로 하지만, 기존 방법들은 주체 일관성과 제한된 입력 양식에 어려움을 겪는 경우가 많습니다. 본 논문에서는 이미지, 오디오, 비디오, 텍스트 조건을 지원하면서 주체 일관성을 강조한 다중 양식 맞춤형 비디오 생성 프레임워크인 HunyuanCustom을 제안합니다. HunyuanVideo를 기반으로 구축된 우리의 모델은 먼저 LLaVA 기반의 텍스트-이미지 융합 모듈을 도입하여 향상된 다중 양식 이해를 달성하고, 시간적 연결을 통해 프레임 간 주체 특징을 강화하는 이미지 ID 강화 모듈을 통해 이미지-텍스트 조건 생성 작업을 해결합니다. 오디오 및 비디오 조건 생성을 가능하게 하기 위해, 공간적 교차 주의를 통해 계층적 정렬을 달성하는 AudioNet 모듈과 패치화 기반 특징 정렬 네트워크를 통해 잠재 압축 조건 비디오를 통합하는 비디오 주입 모듈과 같은 양식별 조건 주입 메커니즘을 추가로 제안합니다. 단일 및 다중 주체 시나리오에 대한 광범위한 실험을 통해 HunyuanCustom이 ID 일관성, 현실감, 텍스트-비디오 정렬 측면에서 최신 오픈소스 및 클로즈드소스 방법들을 크게 능가함을 입증합니다. 또한, 오디오 및 비디오 주도 맞춤형 비디오 생성과 같은 하위 작업에서의 견고성을 검증합니다. 우리의 결과는 제어 가능한 비디오 생성을 발전시키는 데 있어 다중 양식 조건화 및 주체 보존 전략의 효과를 강조합니다. 모든 코드와 모델은 https://hunyuancustom.github.io에서 확인할 수 있습니다.
English
Customized video generation aims to produce videos featuring specific
subjects under flexible user-defined conditions, yet existing methods often
struggle with identity consistency and limited input modalities. In this paper,
we propose HunyuanCustom, a multi-modal customized video generation framework
that emphasizes subject consistency while supporting image, audio, video, and
text conditions. Built upon HunyuanVideo, our model first addresses the
image-text conditioned generation task by introducing a text-image fusion
module based on LLaVA for enhanced multi-modal understanding, along with an
image ID enhancement module that leverages temporal concatenation to reinforce
identity features across frames. To enable audio- and video-conditioned
generation, we further propose modality-specific condition injection
mechanisms: an AudioNet module that achieves hierarchical alignment via spatial
cross-attention, and a video-driven injection module that integrates
latent-compressed conditional video through a patchify-based feature-alignment
network. Extensive experiments on single- and multi-subject scenarios
demonstrate that HunyuanCustom significantly outperforms state-of-the-art open-
and closed-source methods in terms of ID consistency, realism, and text-video
alignment. Moreover, we validate its robustness across downstream tasks,
including audio and video-driven customized video generation. Our results
highlight the effectiveness of multi-modal conditioning and identity-preserving
strategies in advancing controllable video generation. All the code and models
are available at https://hunyuancustom.github.io.Summary
AI-Generated Summary