Shape-for-Motion : Édition vidéo précise et cohérente avec un proxy 3D
Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy
June 27, 2025
Auteurs: Yuhao Liu, Tengfei Wang, Fang Liu, Zhenwei Wang, Rynson W. H. Lau
cs.AI
Résumé
Les récents progrès dans le domaine de la modélisation générative profonde ont ouvert des opportunités sans précédent pour la synthèse vidéo. Cependant, dans les applications réelles, les utilisateurs recherchent souvent des outils pour réaliser fidèlement leurs intentions créatives d'édition avec un contrôle précis et cohérent. Malgré les avancées réalisées par les méthodes existantes, garantir un alignement fin avec les intentions des utilisateurs reste un problème ouvert et complexe. Dans ce travail, nous présentons Shape-for-Motion, un nouveau cadre qui intègre un proxy 3D pour une édition vidéo précise et cohérente. Shape-for-Motion y parvient en convertissant l'objet cible dans la vidéo d'entrée en un maillage temporellement cohérent, c'est-à-dire un proxy 3D, permettant ainsi d'effectuer des modifications directement sur le proxy, puis de les inférer sur les images vidéo. Pour simplifier le processus d'édition, nous concevons une nouvelle Stratégie de Double Propagation qui permet aux utilisateurs d'effectuer des modifications sur le maillage 3D d'une seule image, ces modifications étant ensuite automatiquement propagées aux maillages 3D des autres images. Les maillages 3D pour différentes images sont ensuite projetés dans l'espace 2D pour produire les rendus de géométrie et de texture édités, qui servent d'entrées à un modèle de diffusion vidéo découplé pour générer les résultats édités. Notre cadre prend en charge diverses manipulations précises et physiquement cohérentes à travers les images vidéo, y compris l'édition de pose, la rotation, la mise à l'échelle, la translation, la modification de texture et la composition d'objets. Notre approche marque une étape clé vers des workflows d'édition vidéo de haute qualité et contrôlables. Des expériences approfondies démontrent la supériorité et l'efficacité de notre approche. Page du projet : https://shapeformotion.github.io/
English
Recent advances in deep generative modeling have unlocked unprecedented
opportunities for video synthesis. In real-world applications, however, users
often seek tools to faithfully realize their creative editing intentions with
precise and consistent control. Despite the progress achieved by existing
methods, ensuring fine-grained alignment with user intentions remains an open
and challenging problem. In this work, we present Shape-for-Motion, a novel
framework that incorporates a 3D proxy for precise and consistent video
editing. Shape-for-Motion achieves this by converting the target object in the
input video to a time-consistent mesh, i.e., a 3D proxy, allowing edits to be
performed directly on the proxy and then inferred back to the video frames. To
simplify the editing process, we design a novel Dual-Propagation Strategy that
allows users to perform edits on the 3D mesh of a single frame, and the edits
are then automatically propagated to the 3D meshes of the other frames. The 3D
meshes for different frames are further projected onto the 2D space to produce
the edited geometry and texture renderings, which serve as inputs to a
decoupled video diffusion model for generating edited results. Our framework
supports various precise and physically-consistent manipulations across the
video frames, including pose editing, rotation, scaling, translation, texture
modification, and object composition. Our approach marks a key step toward
high-quality, controllable video editing workflows. Extensive experiments
demonstrate the superiority and effectiveness of our approach. Project page:
https://shapeformotion.github.io/