Sketch3DVE: Sketch-gebaseerde 3D-bewuste scènevideo-bewerking
Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing
August 19, 2025
Auteurs: Feng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao
cs.AI
Samenvatting
Recente methoden voor videobewerking behalen aantrekkelijke resultaten in stijloverdracht of uiterlijkmodificatie. Het bewerken van de structurele inhoud van 3D-scènes in video's blijft echter een uitdaging, vooral bij significante veranderingen in het gezichtspunt, zoals grote camerarotaties of zooms. Belangrijke uitdagingen zijn het genereren van nieuwe weergave-inhoud die consistent blijft met de originele video, het behouden van onbewerkte regio's en het vertalen van spaarse 2D-invoer naar realistische 3D-videoresultaten. Om deze problemen aan te pakken, stellen we Sketch3DVE voor, een op schetsen gebaseerde 3D-bewuste videobewerkingsmethode die gedetailleerde lokale manipulatie van video's met significante veranderingen in het gezichtspunt mogelijk maakt. Om de uitdaging van spaarse invoer op te lossen, gebruiken we beeldbewerkingsmethoden om bewerkte resultaten voor het eerste frame te genereren, die vervolgens worden doorgevoerd naar de resterende frames van de video. We gebruiken schetsen als interactietool voor precieze geometriebesturing, terwijl ook andere op maskers gebaseerde beeldbewerkingsmethoden worden ondersteund. Om veranderingen in het gezichtspunt te hanteren, voeren we een gedetailleerde analyse en manipulatie uit van de 3D-informatie in de video. Specifiek gebruiken we een dichte stereomethode om een puntenwolk en de cameraparameters van de invoervideo te schatten. Vervolgens stellen we een puntenwolkbewerkingsmethode voor die dieptekaarten gebruikt om de 3D-geometrie van nieuw bewerkte componenten weer te geven, waardoor ze effectief worden uitgelijnd met de originele 3D-scène. Om de nieuw bewerkte inhoud naadloos te integreren met de originele video terwijl de kenmerken van onbewerkte regio's worden behouden, introduceren we een 3D-bewuste maskerpropagatiestrategie en gebruiken we een videodiffusiemodel om realistische bewerkte video's te produceren. Uitgebreide experimenten tonen de superioriteit van Sketch3DVE in videobewerking aan. Homepage en code: http://geometrylearning.com/Sketch3DVE/
English
Recent video editing methods achieve attractive results in style transfer or
appearance modification. However, editing the structural content of 3D scenes
in videos remains challenging, particularly when dealing with significant
viewpoint changes, such as large camera rotations or zooms. Key challenges
include generating novel view content that remains consistent with the original
video, preserving unedited regions, and translating sparse 2D inputs into
realistic 3D video outputs. To address these issues, we propose Sketch3DVE, a
sketch-based 3D-aware video editing method to enable detailed local
manipulation of videos with significant viewpoint changes. To solve the
challenge posed by sparse inputs, we employ image editing methods to generate
edited results for the first frame, which are then propagated to the remaining
frames of the video. We utilize sketching as an interaction tool for precise
geometry control, while other mask-based image editing methods are also
supported. To handle viewpoint changes, we perform a detailed analysis and
manipulation of the 3D information in the video. Specifically, we utilize a
dense stereo method to estimate a point cloud and the camera parameters of the
input video. We then propose a point cloud editing approach that uses depth
maps to represent the 3D geometry of newly edited components, aligning them
effectively with the original 3D scene. To seamlessly merge the newly edited
content with the original video while preserving the features of unedited
regions, we introduce a 3D-aware mask propagation strategy and employ a video
diffusion model to produce realistic edited videos. Extensive experiments
demonstrate the superiority of Sketch3DVE in video editing. Homepage and code:
http://http://geometrylearning.com/Sketch3DVE/