Editing Generativo del Movimento Video con Tracce di Punti 3D
Generative Video Motion Editing with 3D Point Tracks
December 1, 2025
Autori: Yao-Chih Lee, Zhoutong Zhang, Jiahui Huang, Jui-Hsien Wang, Joon-Young Lee, Jia-Bin Huang, Eli Shechtman, Zhengqi Li
cs.AI
Abstract
I movimenti della telecamera e degli oggetti sono centrali per la narrazione di un video. Tuttavia, modificare con precisione questi movimenti catturati rimane una sfida significativa, specialmente in presenza di movimenti complessi degli oggetti. Gli attuali approcci image-to-video (I2V) controllati dal movimento spesso mancano del contesto completo della scena per un editing video coerente, mentre i metodi video-to-video (V2V) forniscono cambiamenti di punto di vista o traslazioni basilari degli oggetti, ma offrono un controllo limitato sul movimento granulare degli oggetti. Presentiamo un framework V2V condizionato da traiettorie che consente l'editing congiunto del movimento della telecamera e degli oggetti. Raggiungiamo questo risultato condizionando un modello di generazione video su un video sorgente e su tracce 3D di punti accoppiate che rappresentano i movimenti sorgente e target. Queste tracce 3D stabiliscono corrispondenze sparse che trasferiscono un ricco contesto dal video sorgente a nuovi movimenti, preservando al contempo la coerenza spaziotemporale. Crucialmente, rispetto alle tracce 2D, le tracce 3D forniscono indizi di profondità espliciti, permettendo al modello di risolvere l'ordine di profondità e gestire le occlusioni per un editing preciso del movimento. Addestrato in due fasi su dati sintetici e reali, il nostro modello supporta diverse modifiche al movimento, inclusa la manipolazione congiunta telecamera/oggetto, il trasferimento del movimento e la deformazione non rigida, sbloccando nuovo potenziale creativo nell'editing video.
English
Camera and object motions are central to a video's narrative. However, precisely editing these captured motions remains a significant challenge, especially under complex object movements. Current motion-controlled image-to-video (I2V) approaches often lack full-scene context for consistent video editing, while video-to-video (V2V) methods provide viewpoint changes or basic object translation, but offer limited control over fine-grained object motion. We present a track-conditioned V2V framework that enables joint editing of camera and object motion. We achieve this by conditioning a video generation model on a source video and paired 3D point tracks representing source and target motions. These 3D tracks establish sparse correspondences that transfer rich context from the source video to new motions while preserving spatiotemporal coherence. Crucially, compared to 2D tracks, 3D tracks provide explicit depth cues, allowing the model to resolve depth order and handle occlusions for precise motion editing. Trained in two stages on synthetic and real data, our model supports diverse motion edits, including joint camera/object manipulation, motion transfer, and non-rigid deformation, unlocking new creative potential in video editing.