ChatPaper.aiChatPaper

TrajectoryCrafter : Réorientation des trajectoires de caméra pour les vidéos monoculaires via des modèles de diffusion

TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

March 7, 2025
Auteurs: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan
cs.AI

Résumé

Nous présentons TrajectoryCrafter, une nouvelle approche pour rediriger les trajectoires de caméra dans les vidéos monoculaires. En dissociant les transformations de vue déterministes de la génération de contenu stochastique, notre méthode permet un contrôle précis des trajectoires de caméra spécifiées par l'utilisateur. Nous proposons un modèle de diffusion vidéo conditionnelle à double flux qui intègre simultanément des rendus de nuages de points et des vidéos sources comme conditions, garantissant des transformations de vue précises et une génération cohérente de contenu 4D. Plutôt que d'exploiter des vidéos multivues rares, nous constituons un ensemble de données d'entraînement hybride combinant des vidéos monoculaires à grande échelle avec des ensembles de données multivues statiques, grâce à notre stratégie innovante de double reprojection, favorisant ainsi une généralisation robuste à travers diverses scènes. Des évaluations approfondies sur des vidéos multivues et monoculaires à grande échelle démontrent la performance supérieure de notre méthode.
English
We present TrajectoryCrafter, a novel approach to redirect camera trajectories for monocular videos. By disentangling deterministic view transformations from stochastic content generation, our method achieves precise control over user-specified camera trajectories. We propose a novel dual-stream conditional video diffusion model that concurrently integrates point cloud renders and source videos as conditions, ensuring accurate view transformations and coherent 4D content generation. Instead of leveraging scarce multi-view videos, we curate a hybrid training dataset combining web-scale monocular videos with static multi-view datasets, by our innovative double-reprojection strategy, significantly fostering robust generalization across diverse scenes. Extensive evaluations on multi-view and large-scale monocular videos demonstrate the superior performance of our method.

Summary

AI-Generated Summary

PDF182March 10, 2025