Shape-for-Motion: Nauwkeurige en Consistente Videobewerking met 3D-Proxy

Samenvatting

Recente doorbraken in diepgaand generatief modelleren hebben ongekende mogelijkheden voor videosynthese ontsloten. In real-world toepassingen zoeken gebruikers echter vaak naar tools om hun creatieve bewerkingsintenties nauwkeurig en consistent te realiseren. Ondanks de vooruitgang die bestaande methoden hebben geboekt, blijft het waarborgen van fijnmazige afstemming op gebruikersintenties een open en uitdagend probleem. In dit werk presenteren we Shape-for-Motion, een nieuw framework dat een 3D-proxy integreert voor precieze en consistente videobewerking. Shape-for-Motion bereikt dit door het doelobject in de invoervideo om te zetten naar een tijdconsistent mesh, d.w.z. een 3D-proxy, waardoor bewerkingen direct op de proxy kunnen worden uitgevoerd en vervolgens terug kunnen worden afgeleid naar de videoframes. Om het bewerkingsproces te vereenvoudigen, ontwerpen we een nieuwe Dual-Propagation Strategie waarmee gebruikers bewerkingen kunnen uitvoeren op het 3D-mesh van een enkel frame, waarna de bewerkingen automatisch worden doorgevoerd naar de 3D-meshes van de andere frames. De 3D-meshes voor verschillende frames worden verder geprojecteerd op de 2D-ruimte om de bewerkte geometrie en textuurweergaven te produceren, die dienen als invoer voor een ontkoppeld videodiffusiemodel om de bewerkte resultaten te genereren. Ons framework ondersteunt diverse precieze en fysisch consistente manipulaties over de videoframes, waaronder posebewerking, rotatie, schaling, translatie, textuurmodificatie en objectcompositie. Onze aanpak markeert een belangrijke stap richting hoogwaardige, controleerbare videobewerkingsworkflows. Uitgebreide experimenten tonen de superioriteit en effectiviteit van onze aanpak aan. Projectpagina: https://shapeformotion.github.io/

English

Recent advances in deep generative modeling have unlocked unprecedented opportunities for video synthesis. In real-world applications, however, users often seek tools to faithfully realize their creative editing intentions with precise and consistent control. Despite the progress achieved by existing methods, ensuring fine-grained alignment with user intentions remains an open and challenging problem. In this work, we present Shape-for-Motion, a novel framework that incorporates a 3D proxy for precise and consistent video editing. Shape-for-Motion achieves this by converting the target object in the input video to a time-consistent mesh, i.e., a 3D proxy, allowing edits to be performed directly on the proxy and then inferred back to the video frames. To simplify the editing process, we design a novel Dual-Propagation Strategy that allows users to perform edits on the 3D mesh of a single frame, and the edits are then automatically propagated to the 3D meshes of the other frames. The 3D meshes for different frames are further projected onto the 2D space to produce the edited geometry and texture renderings, which serve as inputs to a decoupled video diffusion model for generating edited results. Our framework supports various precise and physically-consistent manipulations across the video frames, including pose editing, rotation, scaling, translation, texture modification, and object composition. Our approach marks a key step toward high-quality, controllable video editing workflows. Extensive experiments demonstrate the superiority and effectiveness of our approach. Project page: https://shapeformotion.github.io/

Shape-for-Motion: Nauwkeurige en Consistente Videobewerking met 3D-Proxy

Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy

Samenvatting

Support