TrajectoryCrafter: Reindirizzamento della Traiettoria della Fotocamera per Video Monoculari tramite Modelli di Diffusione
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models
March 7, 2025
Autori: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan
cs.AI
Abstract
Presentiamo TrajectoryCrafter, un approccio innovativo per reindirizzare le traiettorie della telecamera nei video monoculari. Separando le trasformazioni di vista deterministiche dalla generazione stocastica dei contenuti, il nostro metodo ottiene un controllo preciso sulle traiettorie della telecamera specificate dall'utente. Proponiamo un nuovo modello di diffusione video condizionale a doppio flusso che integra contemporaneamente rendering di nuvole di punti e video sorgente come condizioni, garantendo trasformazioni di vista accurate e una generazione coerente di contenuti 4D. Invece di sfruttare rari video multivista, abbiamo curato un dataset di training ibrido che combina video monoculari su scala web con dataset multivista statici, grazie alla nostra innovativa strategia di doppia riproiezione, favorendo significativamente una robusta generalizzazione attraverso scene diverse. Valutazioni estese su video multivista e su larga scala monoculari dimostrano la superiorità delle prestazioni del nostro metodo.
English
We present TrajectoryCrafter, a novel approach to redirect camera
trajectories for monocular videos. By disentangling deterministic view
transformations from stochastic content generation, our method achieves precise
control over user-specified camera trajectories. We propose a novel dual-stream
conditional video diffusion model that concurrently integrates point cloud
renders and source videos as conditions, ensuring accurate view transformations
and coherent 4D content generation. Instead of leveraging scarce multi-view
videos, we curate a hybrid training dataset combining web-scale monocular
videos with static multi-view datasets, by our innovative double-reprojection
strategy, significantly fostering robust generalization across diverse scenes.
Extensive evaluations on multi-view and large-scale monocular videos
demonstrate the superior performance of our method.Summary
AI-Generated Summary