Shape-for-Motion: Nauwkeurige en Consistente Videobewerking met 3D-Proxy
Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy
June 27, 2025
Auteurs: Yuhao Liu, Tengfei Wang, Fang Liu, Zhenwei Wang, Rynson W. H. Lau
cs.AI
Samenvatting
Recente doorbraken in diepgaand generatief modelleren hebben ongekende mogelijkheden voor videosynthese ontsloten. In real-world toepassingen zoeken gebruikers echter vaak naar tools om hun creatieve bewerkingsintenties nauwkeurig en consistent te realiseren. Ondanks de vooruitgang die bestaande methoden hebben geboekt, blijft het waarborgen van fijnmazige afstemming op gebruikersintenties een open en uitdagend probleem. In dit werk presenteren we Shape-for-Motion, een nieuw framework dat een 3D-proxy integreert voor precieze en consistente videobewerking. Shape-for-Motion bereikt dit door het doelobject in de invoervideo om te zetten naar een tijdconsistent mesh, d.w.z. een 3D-proxy, waardoor bewerkingen direct op de proxy kunnen worden uitgevoerd en vervolgens terug kunnen worden afgeleid naar de videoframes. Om het bewerkingsproces te vereenvoudigen, ontwerpen we een nieuwe Dual-Propagation Strategie waarmee gebruikers bewerkingen kunnen uitvoeren op het 3D-mesh van een enkel frame, waarna de bewerkingen automatisch worden doorgevoerd naar de 3D-meshes van de andere frames. De 3D-meshes voor verschillende frames worden verder geprojecteerd op de 2D-ruimte om de bewerkte geometrie en textuurweergaven te produceren, die dienen als invoer voor een ontkoppeld videodiffusiemodel om de bewerkte resultaten te genereren. Ons framework ondersteunt diverse precieze en fysisch consistente manipulaties over de videoframes, waaronder posebewerking, rotatie, schaling, translatie, textuurmodificatie en objectcompositie. Onze aanpak markeert een belangrijke stap richting hoogwaardige, controleerbare videobewerkingsworkflows. Uitgebreide experimenten tonen de superioriteit en effectiviteit van onze aanpak aan. Projectpagina: https://shapeformotion.github.io/
English
Recent advances in deep generative modeling have unlocked unprecedented
opportunities for video synthesis. In real-world applications, however, users
often seek tools to faithfully realize their creative editing intentions with
precise and consistent control. Despite the progress achieved by existing
methods, ensuring fine-grained alignment with user intentions remains an open
and challenging problem. In this work, we present Shape-for-Motion, a novel
framework that incorporates a 3D proxy for precise and consistent video
editing. Shape-for-Motion achieves this by converting the target object in the
input video to a time-consistent mesh, i.e., a 3D proxy, allowing edits to be
performed directly on the proxy and then inferred back to the video frames. To
simplify the editing process, we design a novel Dual-Propagation Strategy that
allows users to perform edits on the 3D mesh of a single frame, and the edits
are then automatically propagated to the 3D meshes of the other frames. The 3D
meshes for different frames are further projected onto the 2D space to produce
the edited geometry and texture renderings, which serve as inputs to a
decoupled video diffusion model for generating edited results. Our framework
supports various precise and physically-consistent manipulations across the
video frames, including pose editing, rotation, scaling, translation, texture
modification, and object composition. Our approach marks a key step toward
high-quality, controllable video editing workflows. Extensive experiments
demonstrate the superiority and effectiveness of our approach. Project page:
https://shapeformotion.github.io/