TrajectoryCrafter: Umleitung von Kameratrajektorien für monokulare Videos mittels Diffusionsmodellen
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models
March 7, 2025
Autoren: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan
cs.AI
Zusammenfassung
Wir präsentieren TrajectoryCrafter, einen neuartigen Ansatz zur Umleitung von Kameratrajektorien für monokulare Videos. Durch die Entkopplung deterministischer Sichttransformationen von stochastischer Inhaltsgenerierung ermöglicht unsere Methode eine präzise Kontrolle über benutzerdefinierte Kameratrajektorien. Wir schlagen ein neuartiges duales bedingtes Video-Diffusionsmodell vor, das gleichzeitig Punktwolken-Renderings und Quellvideos als Bedingungen integriert, wodurch genaue Sichttransformationen und kohärente 4D-Inhaltsgenerierung gewährleistet werden. Anstatt auf seltene Multi-View-Videos zurückzugreifen, erstellen wir einen hybriden Trainingsdatensatz, der web-skalierte monokulare Videos mit statischen Multi-View-Datensätzen kombiniert, durch unsere innovative Doppelreprojektionsstrategie, die eine robuste Generalisierung über verschiedene Szenen hinweg signifikant fördert. Umfangreiche Evaluierungen auf Multi-View- und großskaligen monokularen Videos demonstrieren die überlegene Leistung unserer Methode.
English
We present TrajectoryCrafter, a novel approach to redirect camera
trajectories for monocular videos. By disentangling deterministic view
transformations from stochastic content generation, our method achieves precise
control over user-specified camera trajectories. We propose a novel dual-stream
conditional video diffusion model that concurrently integrates point cloud
renders and source videos as conditions, ensuring accurate view transformations
and coherent 4D content generation. Instead of leveraging scarce multi-view
videos, we curate a hybrid training dataset combining web-scale monocular
videos with static multi-view datasets, by our innovative double-reprojection
strategy, significantly fostering robust generalization across diverse scenes.
Extensive evaluations on multi-view and large-scale monocular videos
demonstrate the superior performance of our method.Summary
AI-Generated Summary