Shape-for-Motion: Edición de video precisa y consistente con proxy 3D
Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy
June 27, 2025
Autores: Yuhao Liu, Tengfei Wang, Fang Liu, Zhenwei Wang, Rynson W. H. Lau
cs.AI
Resumen
Los recientes avances en el modelado generativo profundo han desbloqueado oportunidades sin precedentes para la síntesis de video. Sin embargo, en aplicaciones del mundo real, los usuarios a menudo buscan herramientas que permitan realizar fielmente sus intenciones creativas de edición con un control preciso y consistente. A pesar del progreso logrado por los métodos existentes, garantizar una alineación detallada con las intenciones del usuario sigue siendo un problema abierto y desafiante. En este trabajo, presentamos Shape-for-Motion, un marco novedoso que incorpora un proxy 3D para la edición precisa y consistente de video. Shape-for-Motion logra esto convirtiendo el objeto objetivo en el video de entrada en una malla consistente en el tiempo, es decir, un proxy 3D, permitiendo que las ediciones se realicen directamente en el proxy y luego se infieran de nuevo a los fotogramas del video. Para simplificar el proceso de edición, diseñamos una Estrategia de Doble Propagación que permite a los usuarios realizar ediciones en la malla 3D de un solo fotograma, y estas ediciones se propagan automáticamente a las mallas 3D de los demás fotogramas. Las mallas 3D para diferentes fotogramas se proyectan además en el espacio 2D para producir las representaciones de geometría y textura editadas, que sirven como entradas a un modelo de difusión de video desacoplado para generar los resultados editados. Nuestro marco admite diversas manipulaciones precisas y físicamente consistentes a lo largo de los fotogramas del video, incluyendo edición de pose, rotación, escalado, traslación, modificación de textura y composición de objetos. Nuestro enfoque marca un paso clave hacia flujos de trabajo de edición de video de alta calidad y controlables. Experimentos extensivos demuestran la superioridad y efectividad de nuestro enfoque. Página del proyecto: https://shapeformotion.github.io/
English
Recent advances in deep generative modeling have unlocked unprecedented
opportunities for video synthesis. In real-world applications, however, users
often seek tools to faithfully realize their creative editing intentions with
precise and consistent control. Despite the progress achieved by existing
methods, ensuring fine-grained alignment with user intentions remains an open
and challenging problem. In this work, we present Shape-for-Motion, a novel
framework that incorporates a 3D proxy for precise and consistent video
editing. Shape-for-Motion achieves this by converting the target object in the
input video to a time-consistent mesh, i.e., a 3D proxy, allowing edits to be
performed directly on the proxy and then inferred back to the video frames. To
simplify the editing process, we design a novel Dual-Propagation Strategy that
allows users to perform edits on the 3D mesh of a single frame, and the edits
are then automatically propagated to the 3D meshes of the other frames. The 3D
meshes for different frames are further projected onto the 2D space to produce
the edited geometry and texture renderings, which serve as inputs to a
decoupled video diffusion model for generating edited results. Our framework
supports various precise and physically-consistent manipulations across the
video frames, including pose editing, rotation, scaling, translation, texture
modification, and object composition. Our approach marks a key step toward
high-quality, controllable video editing workflows. Extensive experiments
demonstrate the superiority and effectiveness of our approach. Project page:
https://shapeformotion.github.io/