ChatPaper.aiChatPaper

TrajectoryCrafter: Redirecionando Trajetórias de Câmera para Vídeos Monoculares via Modelos de Difusão

TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

March 7, 2025
Autores: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan
cs.AI

Resumo

Apresentamos o TrajectoryCrafter, uma abordagem inovadora para redirecionar trajetórias de câmera em vídeos monoculares. Ao separar transformações de visão determinísticas da geração estocástica de conteúdo, nosso método alcança controle preciso sobre trajetórias de câmera especificadas pelo usuário. Propomos um novo modelo de difusão de vídeo condicional de fluxo duplo que integra simultaneamente renderizações de nuvem de pontos e vídeos originais como condições, garantindo transformações de visão precisas e geração coerente de conteúdo 4D. Em vez de utilizar vídeos multivista escassos, criamos um conjunto de dados de treinamento híbrido que combina vídeos monoculares em escala da web com conjuntos de dados multivista estáticos, por meio de nossa estratégia inovadora de dupla reprojeção, promovendo significativamente uma generalização robusta em diversas cenas. Avaliações extensas em vídeos multivista e monoculares em larga escala demonstram o desempenho superior do nosso método.
English
We present TrajectoryCrafter, a novel approach to redirect camera trajectories for monocular videos. By disentangling deterministic view transformations from stochastic content generation, our method achieves precise control over user-specified camera trajectories. We propose a novel dual-stream conditional video diffusion model that concurrently integrates point cloud renders and source videos as conditions, ensuring accurate view transformations and coherent 4D content generation. Instead of leveraging scarce multi-view videos, we curate a hybrid training dataset combining web-scale monocular videos with static multi-view datasets, by our innovative double-reprojection strategy, significantly fostering robust generalization across diverse scenes. Extensive evaluations on multi-view and large-scale monocular videos demonstrate the superior performance of our method.

Summary

AI-Generated Summary

PDF182March 10, 2025