HunyuanCustom: Архитектура для генерации персонализированных видео на основе мультимодальных данных
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation
May 7, 2025
Авторы: Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu
cs.AI
Аннотация
Генерация персонализированных видео направлена на создание видеороликов с определенными объектами в условиях, гибко задаваемых пользователем, однако существующие методы часто сталкиваются с проблемами сохранения идентичности и ограниченного числа входных модальностей. В данной статье мы представляем HunyuanCustom — многомодальную систему для персонализированной генерации видео, которая делает акцент на сохранении идентичности объекта и поддерживает условия в виде изображений, аудио, видео и текста. Построенная на основе HunyuanVideo, наша модель сначала решает задачу генерации с условиями в виде изображений и текста, вводя модуль слияния текста и изображений на основе LLaVA для улучшенного многомодального понимания, а также модуль усиления идентичности изображения, который использует временную конкатенацию для укрепления идентификационных признаков между кадрами. Для включения генерации с условиями в виде аудио и видео мы дополнительно предлагаем механизмы ввода модальностей: модуль AudioNet, который достигает иерархического выравнивания через пространственное кросс-внимание, и модуль ввода на основе видео, который интегрирует латентно-сжатое условное видео через сеть выравнивания признаков на основе патчей. Многочисленные эксперименты в сценариях с одним и несколькими объектами демонстрируют, что HunyuanCustom значительно превосходит современные открытые и закрытые методы по параметрам сохранения идентичности, реалистичности и соответствия текста и видео. Более того, мы подтверждаем ее устойчивость в различных прикладных задачах, включая генерацию персонализированных видео на основе аудио и видео. Наши результаты подчеркивают эффективность многомодальных условий и стратегий сохранения идентичности в продвижении контролируемой генерации видео. Весь код и модели доступны по адресу https://hunyuancustom.github.io.
English
Customized video generation aims to produce videos featuring specific
subjects under flexible user-defined conditions, yet existing methods often
struggle with identity consistency and limited input modalities. In this paper,
we propose HunyuanCustom, a multi-modal customized video generation framework
that emphasizes subject consistency while supporting image, audio, video, and
text conditions. Built upon HunyuanVideo, our model first addresses the
image-text conditioned generation task by introducing a text-image fusion
module based on LLaVA for enhanced multi-modal understanding, along with an
image ID enhancement module that leverages temporal concatenation to reinforce
identity features across frames. To enable audio- and video-conditioned
generation, we further propose modality-specific condition injection
mechanisms: an AudioNet module that achieves hierarchical alignment via spatial
cross-attention, and a video-driven injection module that integrates
latent-compressed conditional video through a patchify-based feature-alignment
network. Extensive experiments on single- and multi-subject scenarios
demonstrate that HunyuanCustom significantly outperforms state-of-the-art open-
and closed-source methods in terms of ID consistency, realism, and text-video
alignment. Moreover, we validate its robustness across downstream tasks,
including audio and video-driven customized video generation. Our results
highlight the effectiveness of multi-modal conditioning and identity-preserving
strategies in advancing controllable video generation. All the code and models
are available at https://hunyuancustom.github.io.Summary
AI-Generated Summary