Shape-for-Motion: Präzise und konsistente Videobearbeitung mit 3D-Proxy
Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy
June 27, 2025
Autoren: Yuhao Liu, Tengfei Wang, Fang Liu, Zhenwei Wang, Rynson W. H. Lau
cs.AI
Zusammenfassung
Jüngste Fortschritte im Bereich des tiefen generativen Modellierens haben beispiellose Möglichkeiten für die Videosynthese eröffnet. In realen Anwendungen suchen Benutzer jedoch oft nach Werkzeugen, um ihre kreativen Bearbeitungsabsichten präzise und konsistent zu steuern. Trotz der Fortschritte, die durch bestehende Methoden erzielt wurden, bleibt die fein abgestimmte Ausrichtung an den Benutzerabsichten ein offenes und herausforderndes Problem. In dieser Arbeit präsentieren wir Shape-for-Motion, ein neuartiges Framework, das einen 3D-Proxy für präzise und konsistente Videobearbeitung integriert. Shape-for-Motion erreicht dies, indem das Zielobjekt im Eingabevideo in ein zeitlich konsistentes Mesh, d.h. einen 3D-Proxy, umgewandelt wird, wodurch Bearbeitungen direkt am Proxy vorgenommen und dann auf die Videobilder zurückgeführt werden können. Um den Bearbeitungsprozess zu vereinfachen, haben wir eine neuartige Dual-Propagation-Strategie entwickelt, die es Benutzern ermöglicht, Bearbeitungen am 3D-Mesh eines einzelnen Bildes vorzunehmen, die dann automatisch auf die 3D-Meshes der anderen Bilder übertragen werden. Die 3D-Meshes für verschiedene Bilder werden weiterhin in den 2D-Raum projiziert, um die bearbeiteten Geometrie- und Textur-Renderings zu erzeugen, die als Eingaben für ein entkoppeltes Video-Diffusionsmodell zur Erzeugung der bearbeiteten Ergebnisse dienen. Unser Framework unterstützt verschiedene präzise und physikalisch konsistente Manipulationen über die Videobilder hinweg, einschließlich Pose-Bearbeitung, Rotation, Skalierung, Translation, Texturmodifikation und Objektkomposition. Unser Ansatz markiert einen wichtigen Schritt hin zu hochwertigen, kontrollierbaren Videobearbeitungs-Workflows. Umfangreiche Experimente demonstrieren die Überlegenheit und Effektivität unseres Ansatzes. Projektseite: https://shapeformotion.github.io/
English
Recent advances in deep generative modeling have unlocked unprecedented
opportunities for video synthesis. In real-world applications, however, users
often seek tools to faithfully realize their creative editing intentions with
precise and consistent control. Despite the progress achieved by existing
methods, ensuring fine-grained alignment with user intentions remains an open
and challenging problem. In this work, we present Shape-for-Motion, a novel
framework that incorporates a 3D proxy for precise and consistent video
editing. Shape-for-Motion achieves this by converting the target object in the
input video to a time-consistent mesh, i.e., a 3D proxy, allowing edits to be
performed directly on the proxy and then inferred back to the video frames. To
simplify the editing process, we design a novel Dual-Propagation Strategy that
allows users to perform edits on the 3D mesh of a single frame, and the edits
are then automatically propagated to the 3D meshes of the other frames. The 3D
meshes for different frames are further projected onto the 2D space to produce
the edited geometry and texture renderings, which serve as inputs to a
decoupled video diffusion model for generating edited results. Our framework
supports various precise and physically-consistent manipulations across the
video frames, including pose editing, rotation, scaling, translation, texture
modification, and object composition. Our approach marks a key step toward
high-quality, controllable video editing workflows. Extensive experiments
demonstrate the superiority and effectiveness of our approach. Project page:
https://shapeformotion.github.io/