Shape-for-Motion: Edição de Vídeo Preciso e Consistente com Proxy 3D
Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy
June 27, 2025
Autores: Yuhao Liu, Tengfei Wang, Fang Liu, Zhenwei Wang, Rynson W. H. Lau
cs.AI
Resumo
Os recentes avanços na modelagem generativa profunda desbloquearam oportunidades sem precedentes para a síntese de vídeo. No entanto, em aplicações do mundo real, os usuários frequentemente buscam ferramentas que possam realizar fielmente suas intenções de edição criativa com controle preciso e consistente. Apesar do progresso alcançado pelos métodos existentes, garantir um alinhamento refinado com as intenções do usuário continua sendo um problema aberto e desafiador. Neste trabalho, apresentamos o Shape-for-Motion, uma nova estrutura que incorpora um proxy 3D para edição de vídeo precisa e consistente. O Shape-for-Motion alcança isso convertendo o objeto alvo no vídeo de entrada em uma malha consistente no tempo, ou seja, um proxy 3D, permitindo que as edições sejam realizadas diretamente no proxy e então inferidas de volta para os quadros do vídeo. Para simplificar o processo de edição, projetamos uma nova Estratégia de Dupla Propagação que permite aos usuários realizar edições na malha 3D de um único quadro, e as edições são então automaticamente propagadas para as malhas 3D dos outros quadros. As malhas 3D para diferentes quadros são ainda projetadas no espaço 2D para produzir renderizações de geometria e textura editadas, que servem como entradas para um modelo de difusão de vídeo desacoplado para gerar os resultados editados. Nossa estrutura suporta várias manipulações precisas e fisicamente consistentes ao longo dos quadros do vídeo, incluindo edição de pose, rotação, escalonamento, translação, modificação de textura e composição de objetos. Nossa abordagem marca um passo importante em direção a fluxos de trabalho de edição de vídeo de alta qualidade e controláveis. Experimentos extensivos demonstram a superioridade e eficácia de nossa abordagem. Página do projeto: https://shapeformotion.github.io/
English
Recent advances in deep generative modeling have unlocked unprecedented
opportunities for video synthesis. In real-world applications, however, users
often seek tools to faithfully realize their creative editing intentions with
precise and consistent control. Despite the progress achieved by existing
methods, ensuring fine-grained alignment with user intentions remains an open
and challenging problem. In this work, we present Shape-for-Motion, a novel
framework that incorporates a 3D proxy for precise and consistent video
editing. Shape-for-Motion achieves this by converting the target object in the
input video to a time-consistent mesh, i.e., a 3D proxy, allowing edits to be
performed directly on the proxy and then inferred back to the video frames. To
simplify the editing process, we design a novel Dual-Propagation Strategy that
allows users to perform edits on the 3D mesh of a single frame, and the edits
are then automatically propagated to the 3D meshes of the other frames. The 3D
meshes for different frames are further projected onto the 2D space to produce
the edited geometry and texture renderings, which serve as inputs to a
decoupled video diffusion model for generating edited results. Our framework
supports various precise and physically-consistent manipulations across the
video frames, including pose editing, rotation, scaling, translation, texture
modification, and object composition. Our approach marks a key step toward
high-quality, controllable video editing workflows. Extensive experiments
demonstrate the superiority and effectiveness of our approach. Project page:
https://shapeformotion.github.io/