ChatPaper.aiChatPaper

Shape-for-Motion: 3D 프록시를 활용한 정밀하고 일관된 비디오 편집

Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy

June 27, 2025
저자: Yuhao Liu, Tengfei Wang, Fang Liu, Zhenwei Wang, Rynson W. H. Lau
cs.AI

초록

최근 딥 생성 모델링의 발전으로 비디오 합성 분야에서 전례 없는 기회가 열렸다. 그러나 실제 응용에서는 사용자들이 정밀하고 일관된 제어를 통해 창의적인 편집 의도를 충실히 실현할 수 있는 도구를 원하는 경우가 많다. 기존 방법들이 이룬 진전에도 불구하고, 사용자 의도와의 세밀한 정렬을 보장하는 것은 여전히 열려 있고 도전적인 문제로 남아 있다. 본 연구에서는 정밀하고 일관된 비디오 편집을 위해 3D 프록시를 통합한 새로운 프레임워크인 Shape-for-Motion을 제안한다. Shape-for-Motion은 입력 비디오의 대상 객체를 시간적으로 일관된 메시, 즉 3D 프록시로 변환함으로써 이를 달성한다. 이를 통해 편집을 프록시에서 직접 수행한 후 비디오 프레임으로 다시 추론할 수 있다. 편집 과정을 단순화하기 위해, 우리는 사용자가 단일 프레임의 3D 메시에서 편집을 수행하면 해당 편집이 다른 프레임의 3D 메시로 자동 전파되는 새로운 이중 전파 전략을 설계했다. 서로 다른 프레임의 3D 메시는 2D 공간에 투영되어 편집된 기하학적 구조와 텍스처 렌더링을 생성하며, 이는 편집된 결과를 생성하기 위해 디커플링된 비디오 확산 모델의 입력으로 사용된다. 우리의 프레임워크는 포즈 편집, 회전, 크기 조정, 이동, 텍스처 수정 및 객체 합성과 같은 비디오 프레임 전반에 걸친 다양한 정밀하고 물리적으로 일관된 조작을 지원한다. 우리의 접근 방식은 고품질의 제어 가능한 비디오 편집 워크플로우를 향한 중요한 단계를 표시한다. 광범위한 실험을 통해 우리 접근 방식의 우수성과 효과성을 입증했다. 프로젝트 페이지: https://shapeformotion.github.io/
English
Recent advances in deep generative modeling have unlocked unprecedented opportunities for video synthesis. In real-world applications, however, users often seek tools to faithfully realize their creative editing intentions with precise and consistent control. Despite the progress achieved by existing methods, ensuring fine-grained alignment with user intentions remains an open and challenging problem. In this work, we present Shape-for-Motion, a novel framework that incorporates a 3D proxy for precise and consistent video editing. Shape-for-Motion achieves this by converting the target object in the input video to a time-consistent mesh, i.e., a 3D proxy, allowing edits to be performed directly on the proxy and then inferred back to the video frames. To simplify the editing process, we design a novel Dual-Propagation Strategy that allows users to perform edits on the 3D mesh of a single frame, and the edits are then automatically propagated to the 3D meshes of the other frames. The 3D meshes for different frames are further projected onto the 2D space to produce the edited geometry and texture renderings, which serve as inputs to a decoupled video diffusion model for generating edited results. Our framework supports various precise and physically-consistent manipulations across the video frames, including pose editing, rotation, scaling, translation, texture modification, and object composition. Our approach marks a key step toward high-quality, controllable video editing workflows. Extensive experiments demonstrate the superiority and effectiveness of our approach. Project page: https://shapeformotion.github.io/
PDF101June 30, 2025