TrajectoryCrafter: Heroriëntering van cameratrajecten voor monovideo's via diffusiemodellen
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models
March 7, 2025
Auteurs: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan
cs.AI
Samenvatting
We presenteren TrajectoryCrafter, een nieuwe benadering voor het omleiden van cameratrajecten voor monoscopische video's. Door deterministische beeldtransformaties te scheiden van stochastische inhoudsgeneratie, bereikt onze methode nauwkeurige controle over door de gebruiker gespecificeerde cameratrajecten. We stellen een nieuw dual-stream conditioneel videodiffusiemodel voor dat gelijktijdig pointcloud-renders en bronvideo's integreert als condities, waardoor nauwkeurige beeldtransformaties en coherente 4D-inhoudsgeneratie worden gegarandeerd. In plaats van schaarse multiview-video's te benutten, stellen we een hybride trainingsdataset samen die web-schaal monoscopische video's combineert met statische multiview-datasets, dankzij onze innovatieve dubbele-reprojectiestrategie, wat een robuuste generalisatie over diverse scènes aanzienlijk bevordert. Uitgebreide evaluaties op multiview- en grootschalige monoscopische video's tonen de superieure prestaties van onze methode aan.
English
We present TrajectoryCrafter, a novel approach to redirect camera
trajectories for monocular videos. By disentangling deterministic view
transformations from stochastic content generation, our method achieves precise
control over user-specified camera trajectories. We propose a novel dual-stream
conditional video diffusion model that concurrently integrates point cloud
renders and source videos as conditions, ensuring accurate view transformations
and coherent 4D content generation. Instead of leveraging scarce multi-view
videos, we curate a hybrid training dataset combining web-scale monocular
videos with static multi-view datasets, by our innovative double-reprojection
strategy, significantly fostering robust generalization across diverse scenes.
Extensive evaluations on multi-view and large-scale monocular videos
demonstrate the superior performance of our method.Summary
AI-Generated Summary