Generatieve Videobewegingsbewerking met 3D-puntsporten
Generative Video Motion Editing with 3D Point Tracks
December 1, 2025
Auteurs: Yao-Chih Lee, Zhoutong Zhang, Jiahui Huang, Jui-Hsien Wang, Joon-Young Lee, Jia-Bin Huang, Eli Shechtman, Zhengqi Li
cs.AI
Samenvatting
Camera- en objectbewegingen zijn cruciaal voor de narratieve structuur van een video. Het precies bewerken van deze vastgelegde bewegingen blijft echter een grote uitdaging, vooral bij complexe objectbewegingen. Huidige op beweging gestuurde beeld-naar-video (I2V) benaderingen missen vaak de volledige scènecontext voor consistente videobewerking, terwijl video-naar-video (V2V) methoden wel viewpointveranderingen of basisobjecttranslatie bieden, maar beperkte controle over fijnmazige objectbeweging mogelijk maken. Wij presenteren een track-geconditioneerd V2V-raamwerk dat gezamenlijke bewerking van camera- en objectbeweging mogelijk maakt. Dit bereiken we door een videogeneratiemodel te conditioneren op een bronvideo en gekoppelde 3D-punttracks die bron- en doelbewegingen vertegenwoordigen. Deze 3D-tracks leggen sparse correspondenties vast die rijke context van de bronvideo overbrengen naar nieuwe bewegingen, waarbij spatiotemporele coherentie behouden blijft. Cruciaal is dat 3D-tracks, vergeleken met 2D-tracks, expliciete dieptesignalen bieden, waardoor het model dieptevolgorde kan oplossen en occlusies kan hanteren voor precieze bewegingbewerking. Ons model, getraind in twee fasen op synthetische en reële data, ondersteunt diverse bewegingbewerkingen, waaronder gezamenlijke camera/objectmanipulatie, bewegingsoverdracht en niet-rigide deformatie, wat nieuwe creatieve mogelijkheden in videobewerking ontsluit.
English
Camera and object motions are central to a video's narrative. However, precisely editing these captured motions remains a significant challenge, especially under complex object movements. Current motion-controlled image-to-video (I2V) approaches often lack full-scene context for consistent video editing, while video-to-video (V2V) methods provide viewpoint changes or basic object translation, but offer limited control over fine-grained object motion. We present a track-conditioned V2V framework that enables joint editing of camera and object motion. We achieve this by conditioning a video generation model on a source video and paired 3D point tracks representing source and target motions. These 3D tracks establish sparse correspondences that transfer rich context from the source video to new motions while preserving spatiotemporal coherence. Crucially, compared to 2D tracks, 3D tracks provide explicit depth cues, allowing the model to resolve depth order and handle occlusions for precise motion editing. Trained in two stages on synthetic and real data, our model supports diverse motion edits, including joint camera/object manipulation, motion transfer, and non-rigid deformation, unlocking new creative potential in video editing.