Shape-for-Motion: Точное и согласованное редактирование видео с использованием 3D-прокси
Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy
June 27, 2025
Авторы: Yuhao Liu, Tengfei Wang, Fang Liu, Zhenwei Wang, Rynson W. H. Lau
cs.AI
Аннотация
Последние достижения в области глубокого генеративного моделирования открыли беспрецедентные возможности для синтеза видео. Однако в реальных приложениях пользователи часто ищут инструменты, которые позволяют точно и последовательно реализовывать их творческие замыслы при редактировании. Несмотря на прогресс, достигнутый существующими методами, обеспечение детального соответствия намерениям пользователя остается открытой и сложной проблемой. В данной работе мы представляем Shape-for-Motion — новый фреймворк, который использует 3D-прокси для точного и последовательного редактирования видео. Shape-for-Motion достигает этого путем преобразования целевого объекта во входном видео в временно-согласованную сетку, то есть 3D-прокси, что позволяет выполнять редактирование непосредственно на прокси, а затем переносить изменения обратно на кадры видео. Для упрощения процесса редактирования мы разработали новую стратегию Dual-Propagation, которая позволяет пользователю выполнять изменения на 3D-сетке одного кадра, после чего эти изменения автоматически распространяются на 3D-сетки других кадров. 3D-сетки для различных кадров далее проецируются в 2D-пространство для создания отредактированных геометрии и текстур, которые служат входными данными для декомпозированной модели диффузии видео для генерации отредактированных результатов. Наш фреймворк поддерживает различные точные и физически-согласованные манипуляции на протяжении кадров видео, включая редактирование позы, вращение, масштабирование, перемещение, изменение текстуры и композицию объектов. Наш подход представляет собой важный шаг на пути к созданию высококачественных и контролируемых процессов редактирования видео. Многочисленные эксперименты демонстрируют превосходство и эффективность нашего подхода. Страница проекта: https://shapeformotion.github.io/
English
Recent advances in deep generative modeling have unlocked unprecedented
opportunities for video synthesis. In real-world applications, however, users
often seek tools to faithfully realize their creative editing intentions with
precise and consistent control. Despite the progress achieved by existing
methods, ensuring fine-grained alignment with user intentions remains an open
and challenging problem. In this work, we present Shape-for-Motion, a novel
framework that incorporates a 3D proxy for precise and consistent video
editing. Shape-for-Motion achieves this by converting the target object in the
input video to a time-consistent mesh, i.e., a 3D proxy, allowing edits to be
performed directly on the proxy and then inferred back to the video frames. To
simplify the editing process, we design a novel Dual-Propagation Strategy that
allows users to perform edits on the 3D mesh of a single frame, and the edits
are then automatically propagated to the 3D meshes of the other frames. The 3D
meshes for different frames are further projected onto the 2D space to produce
the edited geometry and texture renderings, which serve as inputs to a
decoupled video diffusion model for generating edited results. Our framework
supports various precise and physically-consistent manipulations across the
video frames, including pose editing, rotation, scaling, translation, texture
modification, and object composition. Our approach marks a key step toward
high-quality, controllable video editing workflows. Extensive experiments
demonstrate the superiority and effectiveness of our approach. Project page:
https://shapeformotion.github.io/