VideoMaker: Nullschuss-Angepasste Videogenerierung mit der innewohnenden Kraft von Videodiffusionsmodellen

papers.abstract

Die personalisierte Videoerstellung ohne vorheriges Training hat aufgrund ihres erheblichen Anwendungspotenzials erhebliche Aufmerksamkeit erlangt. Bestehende Methoden setzen zusätzliche Modelle ein, um Referenzmerkmale des Subjekts zu extrahieren und einzufügen, da angenommen wird, dass das Video Diffusion Model (VDM) allein für die personalisierte Videoerstellung ohne vorheriges Training nicht ausreicht. Diese Methoden haben jedoch oft Schwierigkeiten, ein konsistentes Erscheinungsbild des Subjekts aufrechtzuerhalten, aufgrund von suboptimalen Techniken zur Merkmalsextraktion und -einspeisung. In diesem Papier zeigen wir auf, dass das VDM von Natur aus die Fähigkeit besitzt, Subjektmerkmale zu extrahieren und einzufügen. Abweichend von früheren heuristischen Ansätzen stellen wir ein neuartiges Framework vor, das die inhärente Kraft des VDM nutzt, um eine hochwertige personalisierte Videoerstellung ohne vorheriges Training zu ermöglichen. Speziell für die Merkmalsextraktion führen wir Referenzbilder direkt in das VDM ein und nutzen seinen intrinsischen Prozess der Merkmalsextraktion, der nicht nur feingranulare Merkmale liefert, sondern auch signifikant mit dem vorab trainierten Wissen des VDM übereinstimmt. Für die Merkmalseinspeisung entwickeln wir eine innovative bidirektionale Interaktion zwischen Subjektmerkmalen und generiertem Inhalt durch räumliche Selbst-Aufmerksamkeit innerhalb des VDM, um sicherzustellen, dass das VDM eine bessere Subjekttreue aufweist, während die Vielfalt des generierten Videos erhalten bleibt. Experimente zur personalisierten menschlichen und objektbezogenen Videoerstellung bestätigen die Wirksamkeit unseres Frameworks.

English

Zero-shot customized video generation has gained significant attention due to its substantial application potential. Existing methods rely on additional models to extract and inject reference subject features, assuming that the Video Diffusion Model (VDM) alone is insufficient for zero-shot customized video generation. However, these methods often struggle to maintain consistent subject appearance due to suboptimal feature extraction and injection techniques. In this paper, we reveal that VDM inherently possesses the force to extract and inject subject features. Departing from previous heuristic approaches, we introduce a novel framework that leverages VDM's inherent force to enable high-quality zero-shot customized video generation. Specifically, for feature extraction, we directly input reference images into VDM and use its intrinsic feature extraction process, which not only provides fine-grained features but also significantly aligns with VDM's pre-trained knowledge. For feature injection, we devise an innovative bidirectional interaction between subject features and generated content through spatial self-attention within VDM, ensuring that VDM has better subject fidelity while maintaining the diversity of the generated video.Experiments on both customized human and object video generation validate the effectiveness of our framework.

VideoMaker: Nullschuss-Angepasste Videogenerierung mit der innewohnenden Kraft von Videodiffusionsmodellen

VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

papers.abstract

Support