Edición de Movimiento en Video Generativo con Pistas de Puntos 3D
Generative Video Motion Editing with 3D Point Tracks
December 1, 2025
Autores: Yao-Chih Lee, Zhoutong Zhang, Jiahui Huang, Jui-Hsien Wang, Joon-Young Lee, Jia-Bin Huang, Eli Shechtman, Zhengqi Li
cs.AI
Resumen
El movimiento de cámara y de objetos es fundamental para la narrativa de un video. Sin embargo, editar con precisión estos movimientos capturados sigue siendo un desafío significativo, especialmente bajo movimientos complejos de objetos. Los enfoques actuales de imagen a video (I2V) controlados por movimiento a menudo carecen de contexto de escena completa para una edición de video consistente, mientras que los métodos de video a video (V2V) proporcionan cambios de punto de vista o traslación básica de objetos, pero ofrecen un control limitado sobre el movimiento granular de los objetos. Presentamos un marco V2V condicionado por seguimiento que permite la edición conjunta del movimiento de cámara y de objetos. Logramos esto condicionando un modelo de generación de video sobre un video fuente y pares de trayectorias de puntos 3D que representan los movimientos fuente y objetivo. Estas trayectorias 3D establecen correspondencias dispersas que transfieren un contexto enriquecido desde el video fuente a nuevos movimientos, preservando al mismo tiempo la coherencia espacio-temporal. Crucialmente, en comparación con las trayectorias 2D, las trayectorias 3D proporcionan indicios de profundidad explícitos, permitiendo al modelo resolver el orden de profundidad y manejar oclusiones para una edición precisa del movimiento. Entrenado en dos etapas con datos sintéticos y reales, nuestro modelo admite diversas ediciones de movimiento, incluyendo la manipulación conjunta de cámara/objeto, transferencia de movimiento y deformación no rígida, desbloqueando un nuevo potencial creativo en la edición de video.
English
Camera and object motions are central to a video's narrative. However, precisely editing these captured motions remains a significant challenge, especially under complex object movements. Current motion-controlled image-to-video (I2V) approaches often lack full-scene context for consistent video editing, while video-to-video (V2V) methods provide viewpoint changes or basic object translation, but offer limited control over fine-grained object motion. We present a track-conditioned V2V framework that enables joint editing of camera and object motion. We achieve this by conditioning a video generation model on a source video and paired 3D point tracks representing source and target motions. These 3D tracks establish sparse correspondences that transfer rich context from the source video to new motions while preserving spatiotemporal coherence. Crucially, compared to 2D tracks, 3D tracks provide explicit depth cues, allowing the model to resolve depth order and handle occlusions for precise motion editing. Trained in two stages on synthetic and real data, our model supports diverse motion edits, including joint camera/object manipulation, motion transfer, and non-rigid deformation, unlocking new creative potential in video editing.