VideoMaker: Nullschuss-Angepasste Videogenerierung mit der innewohnenden Kraft von Videodiffusionsmodellen
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models
December 27, 2024
Autoren: Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li
cs.AI
Zusammenfassung
Die personalisierte Videoerstellung ohne vorheriges Training hat aufgrund ihres erheblichen Anwendungspotenzials erhebliche Aufmerksamkeit erlangt. Bestehende Methoden setzen zusätzliche Modelle ein, um Referenzmerkmale des Subjekts zu extrahieren und einzufügen, da angenommen wird, dass das Video Diffusion Model (VDM) allein für die personalisierte Videoerstellung ohne vorheriges Training nicht ausreicht. Diese Methoden haben jedoch oft Schwierigkeiten, ein konsistentes Erscheinungsbild des Subjekts aufrechtzuerhalten, aufgrund von suboptimalen Techniken zur Merkmalsextraktion und -einspeisung. In diesem Papier zeigen wir auf, dass das VDM von Natur aus die Fähigkeit besitzt, Subjektmerkmale zu extrahieren und einzufügen. Abweichend von früheren heuristischen Ansätzen stellen wir ein neuartiges Framework vor, das die inhärente Kraft des VDM nutzt, um eine hochwertige personalisierte Videoerstellung ohne vorheriges Training zu ermöglichen. Speziell für die Merkmalsextraktion führen wir Referenzbilder direkt in das VDM ein und nutzen seinen intrinsischen Prozess der Merkmalsextraktion, der nicht nur feingranulare Merkmale liefert, sondern auch signifikant mit dem vorab trainierten Wissen des VDM übereinstimmt. Für die Merkmalseinspeisung entwickeln wir eine innovative bidirektionale Interaktion zwischen Subjektmerkmalen und generiertem Inhalt durch räumliche Selbst-Aufmerksamkeit innerhalb des VDM, um sicherzustellen, dass das VDM eine bessere Subjekttreue aufweist, während die Vielfalt des generierten Videos erhalten bleibt. Experimente zur personalisierten menschlichen und objektbezogenen Videoerstellung bestätigen die Wirksamkeit unseres Frameworks.
English
Zero-shot customized video generation has gained significant attention due to
its substantial application potential. Existing methods rely on additional
models to extract and inject reference subject features, assuming that the
Video Diffusion Model (VDM) alone is insufficient for zero-shot customized
video generation. However, these methods often struggle to maintain consistent
subject appearance due to suboptimal feature extraction and injection
techniques. In this paper, we reveal that VDM inherently possesses the force to
extract and inject subject features. Departing from previous heuristic
approaches, we introduce a novel framework that leverages VDM's inherent force
to enable high-quality zero-shot customized video generation. Specifically, for
feature extraction, we directly input reference images into VDM and use its
intrinsic feature extraction process, which not only provides fine-grained
features but also significantly aligns with VDM's pre-trained knowledge. For
feature injection, we devise an innovative bidirectional interaction between
subject features and generated content through spatial self-attention within
VDM, ensuring that VDM has better subject fidelity while maintaining the
diversity of the generated video.Experiments on both customized human and
object video generation validate the effectiveness of our framework.Summary
AI-Generated Summary