Diffusion als Shader: 3D-bewusste Video-Diffusion zur vielseitigen Steuerung der Videogenerierung
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control
January 7, 2025
Autoren: Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu
cs.AI
Zusammenfassung
Diffusionsmodelle haben beeindruckende Leistungen bei der Erzeugung hochwertiger Videos aus Textvorgaben oder Bildern gezeigt. Die präzise Steuerung des Videoerstellungsprozesses, wie z.B. Kameramanipulation oder Inhaltbearbeitung, bleibt jedoch eine bedeutende Herausforderung. Bestehende Methoden für kontrollierte Videogenerierung sind in der Regel auf einen einzigen Steuerungstyp beschränkt und bieten nicht die Flexibilität, um vielfältige Steuerungsanforderungen zu bewältigen. In diesem Artikel stellen wir Diffusion as Shader (DaS) vor, einen neuartigen Ansatz, der mehrere Videosteuerungsaufgaben innerhalb einer einheitlichen Architektur unterstützt. Unser Schlüsselerkenntnis ist, dass eine vielseitige Videosteuerung den Einsatz von 3D-Steuerungssignalen erfordert, da Videos im Wesentlichen 2D-Renderings von dynamischen 3D-Inhalten sind. Im Gegensatz zu früheren Methoden, die auf 2D-Steuerungssignalen beschränkt sind, nutzt DaS 3D-Tracking-Videos als Steuereingaben und macht den Video-Diffusionsprozess von Natur aus 3D-bewusst. Diese Innovation ermöglicht es DaS, eine Vielzahl von Videosteuerungen zu erreichen, indem einfach die 3D-Tracking-Videos manipuliert werden. Ein weiterer Vorteil der Verwendung von 3D-Tracking-Videos besteht in ihrer Fähigkeit, Frames effektiv zu verknüpfen und die zeitliche Konsistenz der erzeugten Videos erheblich zu verbessern. Mit nur 3 Tagen Feinabstimmung auf 8 H800-GPUs unter Verwendung von weniger als 10.000 Videos zeigt DaS starke Steuerungsfähigkeiten bei verschiedenen Aufgaben, einschließlich der Generierung von Mesh-zu-Video, Kamerasteuerung, Bewegungsübertragung und Objektmanipulation.
English
Diffusion models have demonstrated impressive performance in generating
high-quality videos from text prompts or images. However, precise control over
the video generation process, such as camera manipulation or content editing,
remains a significant challenge. Existing methods for controlled video
generation are typically limited to a single control type, lacking the
flexibility to handle diverse control demands. In this paper, we introduce
Diffusion as Shader (DaS), a novel approach that supports multiple video
control tasks within a unified architecture. Our key insight is that achieving
versatile video control necessitates leveraging 3D control signals, as videos
are fundamentally 2D renderings of dynamic 3D content. Unlike prior methods
limited to 2D control signals, DaS leverages 3D tracking videos as control
inputs, making the video diffusion process inherently 3D-aware. This innovation
allows DaS to achieve a wide range of video controls by simply manipulating the
3D tracking videos. A further advantage of using 3D tracking videos is their
ability to effectively link frames, significantly enhancing the temporal
consistency of the generated videos. With just 3 days of fine-tuning on 8 H800
GPUs using less than 10k videos, DaS demonstrates strong control capabilities
across diverse tasks, including mesh-to-video generation, camera control,
motion transfer, and object manipulation.Summary
AI-Generated Summary