ChatPaper.aiChatPaper

TrajectoryCrafter: Reindirizzamento della Traiettoria della Fotocamera per Video Monoculari tramite Modelli di Diffusione

TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

March 7, 2025
Autori: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan
cs.AI

Abstract

Presentiamo TrajectoryCrafter, un approccio innovativo per reindirizzare le traiettorie della telecamera nei video monoculari. Separando le trasformazioni di vista deterministiche dalla generazione stocastica dei contenuti, il nostro metodo ottiene un controllo preciso sulle traiettorie della telecamera specificate dall'utente. Proponiamo un nuovo modello di diffusione video condizionale a doppio flusso che integra contemporaneamente rendering di nuvole di punti e video sorgente come condizioni, garantendo trasformazioni di vista accurate e una generazione coerente di contenuti 4D. Invece di sfruttare rari video multivista, abbiamo curato un dataset di training ibrido che combina video monoculari su scala web con dataset multivista statici, grazie alla nostra innovativa strategia di doppia riproiezione, favorendo significativamente una robusta generalizzazione attraverso scene diverse. Valutazioni estese su video multivista e su larga scala monoculari dimostrano la superiorità delle prestazioni del nostro metodo.
English
We present TrajectoryCrafter, a novel approach to redirect camera trajectories for monocular videos. By disentangling deterministic view transformations from stochastic content generation, our method achieves precise control over user-specified camera trajectories. We propose a novel dual-stream conditional video diffusion model that concurrently integrates point cloud renders and source videos as conditions, ensuring accurate view transformations and coherent 4D content generation. Instead of leveraging scarce multi-view videos, we curate a hybrid training dataset combining web-scale monocular videos with static multi-view datasets, by our innovative double-reprojection strategy, significantly fostering robust generalization across diverse scenes. Extensive evaluations on multi-view and large-scale monocular videos demonstrate the superior performance of our method.

Summary

AI-Generated Summary

PDF182March 10, 2025