ChatPaper.aiChatPaper

VD3D: Die Bändigung großer Video-Diffusions-Transformer für die 3D-Kamerasteuerung

VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control

July 17, 2024
Autoren: Sherwin Bahmani, Ivan Skorokhodov, Aliaksandr Siarohin, Willi Menapace, Guocheng Qian, Michael Vasilkovsky, Hsin-Ying Lee, Chaoyang Wang, Jiaxu Zou, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov
cs.AI

Zusammenfassung

Moderne Text-zu-Video-Synthese-Modelle zeigen eine kohärente, fotorealistische Generierung von komplexen Videos aus einer Textbeschreibung. Allerdings fehlt den meisten bestehenden Modellen eine fein abgestufte Steuerung über die Kamerabewegung, die für nachgelagerte Anwendungen im Zusammenhang mit der Inhalts-Erstellung, visuellen Effekten und 3D-Vision entscheidend ist. Kürzlich haben neue Methoden die Fähigkeit gezeigt, Videos mit steuerbaren Kamerapositionen zu generieren. Diese Techniken nutzen vortrainierte U-Net-basierte Diffusionsmodelle, die explizit räumliche und zeitliche Generierung entflechten. Dennoch ermöglicht kein vorhandener Ansatz eine Kamerasteuerung für neue, transformerbasierte Video-Diffusionsmodelle, die räumliche und zeitliche Informationen gemeinsam verarbeiten. Hier schlagen wir vor, Video-Transformer für die 3D-Kamerasteuerung zu nutzen, indem wir einen ControlNet-ähnlichen Konditionierungsmechanismus einsetzen, der spatiotemporale Kameraeinbettungen basierend auf Plücker-Koordinaten integriert. Der Ansatz zeigt eine Leistung auf dem neuesten Stand der Technik für steuerbare Video-Generierung nach Feinabstimmung auf dem RealEstate10K-Datensatz. Nach unserem Kenntnisstand ist unsere Arbeit die erste, die eine Kamerasteuerung für transformerbasierte Video-Diffusionsmodelle ermöglicht.
English
Modern text-to-video synthesis models demonstrate coherent, photorealistic generation of complex videos from a text description. However, most existing models lack fine-grained control over camera movement, which is critical for downstream applications related to content creation, visual effects, and 3D vision. Recently, new methods demonstrate the ability to generate videos with controllable camera poses these techniques leverage pre-trained U-Net-based diffusion models that explicitly disentangle spatial and temporal generation. Still, no existing approach enables camera control for new, transformer-based video diffusion models that process spatial and temporal information jointly. Here, we propose to tame video transformers for 3D camera control using a ControlNet-like conditioning mechanism that incorporates spatiotemporal camera embeddings based on Plucker coordinates. The approach demonstrates state-of-the-art performance for controllable video generation after fine-tuning on the RealEstate10K dataset. To the best of our knowledge, our work is the first to enable camera control for transformer-based video diffusion models.

Summary

AI-Generated Summary

PDF133November 28, 2024