TrajectoryCrafter: Redirecionando Trajetórias de Câmera para Vídeos Monoculares via Modelos de Difusão
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models
March 7, 2025
Autores: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan
cs.AI
Resumo
Apresentamos o TrajectoryCrafter, uma abordagem inovadora para redirecionar trajetórias de câmera em vídeos monoculares. Ao separar transformações de visão determinísticas da geração estocástica de conteúdo, nosso método alcança controle preciso sobre trajetórias de câmera especificadas pelo usuário. Propomos um novo modelo de difusão de vídeo condicional de fluxo duplo que integra simultaneamente renderizações de nuvem de pontos e vídeos originais como condições, garantindo transformações de visão precisas e geração coerente de conteúdo 4D. Em vez de utilizar vídeos multivista escassos, criamos um conjunto de dados de treinamento híbrido que combina vídeos monoculares em escala da web com conjuntos de dados multivista estáticos, por meio de nossa estratégia inovadora de dupla reprojeção, promovendo significativamente uma generalização robusta em diversas cenas. Avaliações extensas em vídeos multivista e monoculares em larga escala demonstram o desempenho superior do nosso método.
English
We present TrajectoryCrafter, a novel approach to redirect camera
trajectories for monocular videos. By disentangling deterministic view
transformations from stochastic content generation, our method achieves precise
control over user-specified camera trajectories. We propose a novel dual-stream
conditional video diffusion model that concurrently integrates point cloud
renders and source videos as conditions, ensuring accurate view transformations
and coherent 4D content generation. Instead of leveraging scarce multi-view
videos, we curate a hybrid training dataset combining web-scale monocular
videos with static multi-view datasets, by our innovative double-reprojection
strategy, significantly fostering robust generalization across diverse scenes.
Extensive evaluations on multi-view and large-scale monocular videos
demonstrate the superior performance of our method.Summary
AI-Generated Summary