Generative Videobewegungsbearbeitung mit 3D-Punktspuren
Generative Video Motion Editing with 3D Point Tracks
December 1, 2025
papers.authors: Yao-Chih Lee, Zhoutong Zhang, Jiahui Huang, Jui-Hsien Wang, Joon-Young Lee, Jia-Bin Huang, Eli Shechtman, Zhengqi Li
cs.AI
papers.abstract
Kamera- und Objektbewegungen sind zentral für die Erzählstruktur eines Videos. Die präzise Bearbeitung dieser aufgezeichneten Bewegungen stellt jedoch nach wie vor eine erhebliche Herausforderung dar, insbesondere bei komplexen Objektbewegungen. Aktuelle bewegungsgesteuerte Bild-zu-Video (I2V)-Ansätze bieten oft keinen vollständigen Szenenkontext für eine konsistente Videobearbeitung, während Video-zu-Video (V2V)-Methoden zwar Blickwinkeländerungen oder grundlegende Objektverschiebungen ermöglichen, aber nur eine eingeschränkte Steuerung fein granulärer Objektbewegungen bieten. Wir stellen ein spur-konditioniertes V2V-Framework vor, das die gemeinsame Bearbeitung von Kamera- und Objektbewegung ermöglicht. Dies erreichen wir, indem wir ein Videogenerierungsmodell auf ein Quellvideo und gepaarte 3D-Punktspuren konditionieren, die Quell- und Zielbewegungen repräsentieren. Diese 3D-Spuren stellen sparsame Korrespondenzen her, die den umfassenden Kontext vom Quellvideo auf neue Bewegungen übertragen und dabei die raumzeitliche Kohärenz bewahren. Entscheidend ist, dass 3D-Spuren im Vergleich zu 2D-Spuren explizite Tiefeninformationen liefern, was es dem Modell ermöglicht, Tiefenreihenfolgen aufzulösen und Verdeckungen für eine präzise Bewegungsbearbeitung zu handhaben. Unser Modell, das in zwei Stufen mit synthetischen und realen Daten trainiert wurde, unterstützt diverse Bewegungsbearbeitungen, einschließlich gemeinsamer Kamera-/Objektmanipulation, Bewegungstransfer und nicht-starrer Verformung, und eröffnet damit neues kreatives Potenzial in der Videobearbeitung.
English
Camera and object motions are central to a video's narrative. However, precisely editing these captured motions remains a significant challenge, especially under complex object movements. Current motion-controlled image-to-video (I2V) approaches often lack full-scene context for consistent video editing, while video-to-video (V2V) methods provide viewpoint changes or basic object translation, but offer limited control over fine-grained object motion. We present a track-conditioned V2V framework that enables joint editing of camera and object motion. We achieve this by conditioning a video generation model on a source video and paired 3D point tracks representing source and target motions. These 3D tracks establish sparse correspondences that transfer rich context from the source video to new motions while preserving spatiotemporal coherence. Crucially, compared to 2D tracks, 3D tracks provide explicit depth cues, allowing the model to resolve depth order and handle occlusions for precise motion editing. Trained in two stages on synthetic and real data, our model supports diverse motion edits, including joint camera/object manipulation, motion transfer, and non-rigid deformation, unlocking new creative potential in video editing.