ChatPaper.aiChatPaper

TrajectoryCrafter: Redirección de Trayectorias de Cámara para Vídeos Monoculares mediante Modelos de Difusión

TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

March 7, 2025
Autores: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan
cs.AI

Resumen

Presentamos TrajectoryCrafter, un enfoque novedoso para redirigir trayectorias de cámara en videos monoculares. Al separar las transformaciones de vista determinísticas de la generación de contenido estocástico, nuestro método logra un control preciso sobre las trayectorias de cámara especificadas por el usuario. Proponemos un modelo de difusión de video condicional de doble flujo que integra simultáneamente representaciones de nubes de puntos y videos fuente como condiciones, garantizando transformaciones de vista precisas y una generación coherente de contenido 4D. En lugar de utilizar escasos videos multivista, creamos un conjunto de datos de entrenamiento híbrido que combina videos monoculares a escala web con conjuntos de datos multivista estáticos, mediante nuestra innovadora estrategia de doble reproyección, lo que fomenta significativamente una generalización robusta en diversas escenas. Evaluaciones exhaustivas en videos multivista y monoculares a gran escala demuestran el rendimiento superior de nuestro método.
English
We present TrajectoryCrafter, a novel approach to redirect camera trajectories for monocular videos. By disentangling deterministic view transformations from stochastic content generation, our method achieves precise control over user-specified camera trajectories. We propose a novel dual-stream conditional video diffusion model that concurrently integrates point cloud renders and source videos as conditions, ensuring accurate view transformations and coherent 4D content generation. Instead of leveraging scarce multi-view videos, we curate a hybrid training dataset combining web-scale monocular videos with static multi-view datasets, by our innovative double-reprojection strategy, significantly fostering robust generalization across diverse scenes. Extensive evaluations on multi-view and large-scale monocular videos demonstrate the superior performance of our method.

Summary

AI-Generated Summary

PDF182March 10, 2025