VideoMaker: Video-generatie op maat zonder training met behulp van de inherente kracht van videodiffusiemodellen
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models
December 27, 2024
Auteurs: Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li
cs.AI
Samenvatting
Zero-shot aangepaste videogeneratie heeft aanzienlijke aandacht gekregen vanwege het grote toepassingspotentieel. Bestaande methoden vertrouwen op aanvullende modellen om referentieonderwerpeigenschappen te extraheren en injecteren, waarbij wordt aangenomen dat het Video Diffusion Model (VDM) alleen onvoldoende is voor zero-shot aangepaste videogeneratie. Deze methoden worstelen echter vaak om een consistente onderwerpsuitstraling te behouden vanwege suboptimale functie-extractie- en injectietechnieken. In dit artikel onthullen we dat VDM inherent de kracht bezit om onderwerpeigenschappen te extraheren en injecteren. Afwijkend van eerdere heuristische benaderingen introduceren we een nieuw raamwerk dat gebruikmaakt van de inherente kracht van VDM om hoogwaardige zero-shot aangepaste videogeneratie mogelijk te maken. Specifiek voor functie-extractie voeren we rechtstreeks referentieafbeeldingen in VDM in en gebruiken we zijn intrinsieke functie-extractieproces, dat niet alleen fijnkorrelige functies biedt maar ook aanzienlijk overeenkomt met de vooraf getrainde kennis van VDM. Voor functie-injectie bedenken we een innovatieve bidirectionele interactie tussen onderwerpeigenschappen en gegenereerde inhoud via ruimtelijke zelfaandacht binnen VDM, waardoor VDM een betere onderwerptrouw heeft terwijl de diversiteit van de gegenereerde video behouden blijft. Experimenten met zowel aangepaste menselijke als objectvideo generatie bevestigen de effectiviteit van ons raamwerk.
English
Zero-shot customized video generation has gained significant attention due to
its substantial application potential. Existing methods rely on additional
models to extract and inject reference subject features, assuming that the
Video Diffusion Model (VDM) alone is insufficient for zero-shot customized
video generation. However, these methods often struggle to maintain consistent
subject appearance due to suboptimal feature extraction and injection
techniques. In this paper, we reveal that VDM inherently possesses the force to
extract and inject subject features. Departing from previous heuristic
approaches, we introduce a novel framework that leverages VDM's inherent force
to enable high-quality zero-shot customized video generation. Specifically, for
feature extraction, we directly input reference images into VDM and use its
intrinsic feature extraction process, which not only provides fine-grained
features but also significantly aligns with VDM's pre-trained knowledge. For
feature injection, we devise an innovative bidirectional interaction between
subject features and generated content through spatial self-attention within
VDM, ensuring that VDM has better subject fidelity while maintaining the
diversity of the generated video.Experiments on both customized human and
object video generation validate the effectiveness of our framework.