ChatPaper.aiChatPaper

Shape-for-Motion: Modifica Video Precisa e Coerente con Proxy 3D

Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy

June 27, 2025
Autori: Yuhao Liu, Tengfei Wang, Fang Liu, Zhenwei Wang, Rynson W. H. Lau
cs.AI

Abstract

I recenti progressi nella modellazione generativa profonda hanno sbloccato opportunità senza precedenti per la sintesi video. Tuttavia, nelle applicazioni del mondo reale, gli utenti spesso cercano strumenti per realizzare fedelmente le proprie intenzioni creative di editing con un controllo preciso e coerente. Nonostante i progressi ottenuti dai metodi esistenti, garantire un allineamento granulare con le intenzioni dell'utente rimane un problema aperto e complesso. In questo lavoro, presentiamo Shape-for-Motion, un nuovo framework che incorpora un proxy 3D per un editing video preciso e coerente. Shape-for-Motion raggiunge questo obiettivo convertendo l'oggetto target nel video di input in una mesh coerente nel tempo, ovvero un proxy 3D, consentendo di eseguire modifiche direttamente sul proxy e poi di inferirle nuovamente nei fotogrammi del video. Per semplificare il processo di editing, progettiamo una nuova Dual-Propagation Strategy che permette agli utenti di eseguire modifiche sulla mesh 3D di un singolo fotogramma, e le modifiche vengono poi propagate automaticamente alle mesh 3D degli altri fotogrammi. Le mesh 3D per i diversi fotogrammi vengono ulteriormente proiettate nello spazio 2D per produrre rendering di geometria e texture modificati, che servono come input a un modello di diffusione video disaccoppiato per generare i risultati editati. Il nostro framework supporta varie manipolazioni precise e fisicamente coerenti attraverso i fotogrammi video, tra cui editing della posa, rotazione, scalatura, traslazione, modifica della texture e composizione di oggetti. Il nostro approccio rappresenta un passo fondamentale verso flussi di lavoro di editing video di alta qualità e controllabili. Esperimenti estensivi dimostrano la superiorità e l'efficacia del nostro approccio. Pagina del progetto: https://shapeformotion.github.io/
English
Recent advances in deep generative modeling have unlocked unprecedented opportunities for video synthesis. In real-world applications, however, users often seek tools to faithfully realize their creative editing intentions with precise and consistent control. Despite the progress achieved by existing methods, ensuring fine-grained alignment with user intentions remains an open and challenging problem. In this work, we present Shape-for-Motion, a novel framework that incorporates a 3D proxy for precise and consistent video editing. Shape-for-Motion achieves this by converting the target object in the input video to a time-consistent mesh, i.e., a 3D proxy, allowing edits to be performed directly on the proxy and then inferred back to the video frames. To simplify the editing process, we design a novel Dual-Propagation Strategy that allows users to perform edits on the 3D mesh of a single frame, and the edits are then automatically propagated to the 3D meshes of the other frames. The 3D meshes for different frames are further projected onto the 2D space to produce the edited geometry and texture renderings, which serve as inputs to a decoupled video diffusion model for generating edited results. Our framework supports various precise and physically-consistent manipulations across the video frames, including pose editing, rotation, scaling, translation, texture modification, and object composition. Our approach marks a key step toward high-quality, controllable video editing workflows. Extensive experiments demonstrate the superiority and effectiveness of our approach. Project page: https://shapeformotion.github.io/
PDF121June 30, 2025