ChatPaper.aiChatPaper

Édition générative du mouvement vidéo avec des pistes de points 3D

Generative Video Motion Editing with 3D Point Tracks

December 1, 2025
papers.authors: Yao-Chih Lee, Zhoutong Zhang, Jiahui Huang, Jui-Hsien Wang, Joon-Young Lee, Jia-Bin Huang, Eli Shechtman, Zhengqi Li
cs.AI

papers.abstract

Les mouvements de caméra et d'objet sont au cœur de la narration vidéo. Cependant, leur édition précise après capture reste un défi majeur, particulièrement sous des mouvements d'objets complexes. Les approches actuelles de transformation image-à-vidéo (I2V) contrôlée par le mouvement manquent souvent de contexte scénique complet pour une édition vidéo cohérente, tandis que les méthodes vidéo-à-vidéo (V2V) permettent des changements de point de vue ou des translations d'objets basiques, mais offrent un contrôle limité sur les mouvements fins des objets. Nous présentons un cadre V2V conditionné par des pistes qui permet l'édition conjointe du mouvement de la caméra et des objets. Nous y parvenons en conditionnant un modèle de génération vidéo sur une vidéo source et des pistes de points 3D appariées représentant les mouvements source et cible. Ces pistes 3D établissent des correspondances éparses qui transfèrent le contexte riche de la vidéo source vers de nouveaux mouvements tout en préservant la cohérence spatiotemporelle. Fait crucial, comparées aux pistes 2D, les pistes 3D fournissent des indications de profondeur explicites, permettant au modèle de résoudre l'ordre de profondeur et de gérer les occlusions pour une édition précise du mouvement. Entraîné en deux étapes sur des données synthétiques et réelles, notre modèle prend en charge diverses éditions de mouvement, incluant la manipulation conjointe caméra/objet, le transfert de mouvement et la déformation non rigide, libérant ainsi de nouveaux potentiels créatifs dans l'édition vidéo.
English
Camera and object motions are central to a video's narrative. However, precisely editing these captured motions remains a significant challenge, especially under complex object movements. Current motion-controlled image-to-video (I2V) approaches often lack full-scene context for consistent video editing, while video-to-video (V2V) methods provide viewpoint changes or basic object translation, but offer limited control over fine-grained object motion. We present a track-conditioned V2V framework that enables joint editing of camera and object motion. We achieve this by conditioning a video generation model on a source video and paired 3D point tracks representing source and target motions. These 3D tracks establish sparse correspondences that transfer rich context from the source video to new motions while preserving spatiotemporal coherence. Crucially, compared to 2D tracks, 3D tracks provide explicit depth cues, allowing the model to resolve depth order and handle occlusions for precise motion editing. Trained in two stages on synthetic and real data, our model supports diverse motion edits, including joint camera/object manipulation, motion transfer, and non-rigid deformation, unlocking new creative potential in video editing.
PDF01December 3, 2025