ChatPaper.aiChatPaper

HunyuanCustom: Eine multimodale Architektur für die Erzeugung personalisierter Videos

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7, 2025
Autoren: Teng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu
cs.AI

Zusammenfassung

Die personalisierte Videogenerierung zielt darauf ab, Videos mit spezifischen Subjekten unter flexiblen, benutzerdefinierten Bedingungen zu erzeugen, doch bestehende Methoden kämpfen oft mit Identitätskonsistenz und begrenzten Eingabemodalitäten. In diesem Artikel stellen wir HunyuanCustom vor, ein multimodales Framework zur personalisierten Videogenerierung, das die Subjektkonsistenz betont und gleichzeitig Bild-, Audio-, Video- und Textbedingungen unterstützt. Basierend auf HunyuanVideo adressiert unser Modell zunächst die Aufgabe der bild-text-basierten Generierung durch die Einführung eines Text-Bild-Fusionsmoduls, das auf LLaVA basiert, um das multimodale Verständnis zu verbessern, sowie eines Bild-ID-Verstärkungsmoduls, das zeitliche Verkettung nutzt, um Identitätsmerkmale über Frames hinweg zu verstärken. Um die audio- und videobasierte Generierung zu ermöglichen, schlagen wir weiterhin modalitätsspezifische Bedingungsinjektionsmechanismen vor: ein AudioNet-Modul, das hierarchische Ausrichtung über räumliche Kreuzaufmerksamkeit erreicht, und ein videogesteuertes Injektionsmodul, das latent-komprimierte Bedingungsvideos über ein Patchify-basiertes Feature-Alignment-Netzwerk integriert. Umfangreiche Experimente in Einzel- und Mehrsubjektszenarien zeigen, dass HunyuanCustom in Bezug auf ID-Konsistenz, Realismus und Text-Video-Ausrichtung deutlich besser abschneidet als state-of-the-art Open- und Closed-Source-Methoden. Darüber hinaus validieren wir seine Robustheit in nachgelagerten Aufgaben, einschließlich der audio- und videogesteuerten personalisierten Videogenerierung. Unsere Ergebnisse unterstreichen die Wirksamkeit multimodaler Bedingungen und identitätsbewahrender Strategien bei der Weiterentwicklung kontrollierbarer Videogenerierung. Der gesamte Code und die Modelle sind unter https://hunyuancustom.github.io verfügbar.
English
Customized video generation aims to produce videos featuring specific subjects under flexible user-defined conditions, yet existing methods often struggle with identity consistency and limited input modalities. In this paper, we propose HunyuanCustom, a multi-modal customized video generation framework that emphasizes subject consistency while supporting image, audio, video, and text conditions. Built upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms: an AudioNet module that achieves hierarchical alignment via spatial cross-attention, and a video-driven injection module that integrates latent-compressed conditional video through a patchify-based feature-alignment network. Extensive experiments on single- and multi-subject scenarios demonstrate that HunyuanCustom significantly outperforms state-of-the-art open- and closed-source methods in terms of ID consistency, realism, and text-video alignment. Moreover, we validate its robustness across downstream tasks, including audio and video-driven customized video generation. Our results highlight the effectiveness of multi-modal conditioning and identity-preserving strategies in advancing controllable video generation. All the code and models are available at https://hunyuancustom.github.io.

Summary

AI-Generated Summary

PDF263May 8, 2025