Sketch3DVE: 스케치 기반 3D 인식 장면 비디오 편집
Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing
August 19, 2025
저자: Feng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao
cs.AI
초록
최근 비디오 편집 방법들은 스타일 전이나 외관 수정에서 매력적인 결과를 달성하고 있습니다. 그러나 비디오에서 3D 장면의 구조적 내용을 편집하는 것은 여전히 어려운 과제로 남아 있으며, 특히 큰 카메라 회전이나 줌과 같은 상당한 시점 변화를 다룰 때 더욱 그러합니다. 주요 과제로는 원본 비디오와 일관성을 유지하는 새로운 시점 콘텐츠 생성, 편집되지 않은 영역 보존, 그리고 희소한 2D 입력을 사실적인 3D 비디오 출력으로 변환하는 것이 있습니다. 이러한 문제를 해결하기 위해, 우리는 Sketch3DVE를 제안합니다. 이는 스케치 기반의 3D 인식 비디오 편집 방법으로, 상당한 시점 변화가 있는 비디오의 세부적인 지역 조작을 가능하게 합니다. 희소 입력으로 인한 문제를 해결하기 위해, 우리는 이미지 편집 방법을 사용하여 첫 프레임에 대한 편집 결과를 생성한 후 이를 비디오의 나머지 프레임으로 전파합니다. 우리는 정확한 기하학적 제어를 위한 상호작용 도구로 스케치를 활용하며, 다른 마스크 기반 이미지 편집 방법도 지원합니다. 시점 변화를 처리하기 위해, 우리는 비디오의 3D 정보를 상세히 분석하고 조작합니다. 구체적으로, 우리는 밀집 스테레오 방법을 사용하여 입력 비디오의 포인트 클라우드와 카메라 파라미터를 추정합니다. 그런 다음, 우리는 새로 편집된 구성 요소의 3D 기하학을 표현하기 위해 깊이 맵을 사용하는 포인트 클라우드 편집 접근법을 제안하여 이를 원본 3D 장면과 효과적으로 정렬합니다. 새로 편집된 콘텐츠를 원본 비디오와 원활하게 병합하면서 편집되지 않은 영역의 특징을 보존하기 위해, 우리는 3D 인식 마스크 전파 전략을 도입하고 비디오 확산 모델을 사용하여 사실적인 편집 비디오를 생성합니다. 광범위한 실험을 통해 Sketch3DVE의 비디오 편집 우수성을 입증합니다. 홈페이지 및 코드: http://geometrylearning.com/Sketch3DVE/
English
Recent video editing methods achieve attractive results in style transfer or
appearance modification. However, editing the structural content of 3D scenes
in videos remains challenging, particularly when dealing with significant
viewpoint changes, such as large camera rotations or zooms. Key challenges
include generating novel view content that remains consistent with the original
video, preserving unedited regions, and translating sparse 2D inputs into
realistic 3D video outputs. To address these issues, we propose Sketch3DVE, a
sketch-based 3D-aware video editing method to enable detailed local
manipulation of videos with significant viewpoint changes. To solve the
challenge posed by sparse inputs, we employ image editing methods to generate
edited results for the first frame, which are then propagated to the remaining
frames of the video. We utilize sketching as an interaction tool for precise
geometry control, while other mask-based image editing methods are also
supported. To handle viewpoint changes, we perform a detailed analysis and
manipulation of the 3D information in the video. Specifically, we utilize a
dense stereo method to estimate a point cloud and the camera parameters of the
input video. We then propose a point cloud editing approach that uses depth
maps to represent the 3D geometry of newly edited components, aligning them
effectively with the original 3D scene. To seamlessly merge the newly edited
content with the original video while preserving the features of unedited
regions, we introduce a 3D-aware mask propagation strategy and employ a video
diffusion model to produce realistic edited videos. Extensive experiments
demonstrate the superiority of Sketch3DVE in video editing. Homepage and code:
http://http://geometrylearning.com/Sketch3DVE/