Edição de Movimento em Vídeo Generativo com Rastreamento de Pontos 3D

Resumo

Os movimentos de câmara e de objetos são centrais para a narrativa de um vídeo. No entanto, editar com precisão estes movimentos capturados permanece um desafio significativo, especialmente sob movimentos complexos de objetos. As abordagens atuais de imagem-para-vídeo (I2V) controladas por movimento frequentemente carecem de contexto de cena completa para uma edição de vídeo consistente, enquanto os métodos vídeo-para-vídeo (V2V) proporcionam mudanças de perspetiva ou translação básica de objetos, mas oferecem controlo limitado sobre o movimento granular de objetos. Apresentamos uma estrutura V2V condicionada por trajetórias que permite a edição conjunta do movimento da câmara e do objeto. Conseguimos isto condicionando um modelo de geração de vídeo num vídeo fonte e em trajetórias 3D emparelhadas que representam os movimentos fonte e alvo. Estas trajetórias 3D estabelecem correspondências esparsas que transferem contexto rico do vídeo fonte para novos movimentos, preservando a coerência espaço-temporal. Crucialmente, em comparação com trajetórias 2D, as trajetórias 3D fornecem pistas de profundidade explícitas, permitindo ao modelo resolver a ordem de profundidade e lidar com oclusões para uma edição de movimento precisa. Treinado em duas etapas com dados sintéticos e reais, o nosso modelo suporta diversas edições de movimento, incluindo manipulação conjunta câmara/objeto, transferência de movimento e deformação não rígida, desbloqueando novo potencial criativo na edição de vídeo.

English

Camera and object motions are central to a video's narrative. However, precisely editing these captured motions remains a significant challenge, especially under complex object movements. Current motion-controlled image-to-video (I2V) approaches often lack full-scene context for consistent video editing, while video-to-video (V2V) methods provide viewpoint changes or basic object translation, but offer limited control over fine-grained object motion. We present a track-conditioned V2V framework that enables joint editing of camera and object motion. We achieve this by conditioning a video generation model on a source video and paired 3D point tracks representing source and target motions. These 3D tracks establish sparse correspondences that transfer rich context from the source video to new motions while preserving spatiotemporal coherence. Crucially, compared to 2D tracks, 3D tracks provide explicit depth cues, allowing the model to resolve depth order and handle occlusions for precise motion editing. Trained in two stages on synthetic and real data, our model supports diverse motion edits, including joint camera/object manipulation, motion transfer, and non-rigid deformation, unlocking new creative potential in video editing.