Sketch3DVE: Edição de Vídeo de Cenas 3D Conscientes Baseada em Esboços
Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing
August 19, 2025
Autores: Feng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao
cs.AI
Resumo
Métodos recentes de edição de vídeo alcançam resultados atraentes em transferência de estilo ou modificação de aparência. No entanto, editar o conteúdo estrutural de cenas 3D em vídeos continua desafiador, especialmente ao lidar com mudanças significativas de ponto de vista, como grandes rotações ou zooms de câmera. Os principais desafios incluem gerar conteúdo de novas visualizações que permaneça consistente com o vídeo original, preservar regiões não editadas e traduzir entradas esparsas 2D em saídas de vídeo 3D realistas. Para abordar essas questões, propomos o Sketch3DVE, um método de edição de vídeo 3D baseado em esboços que permite manipulação local detalhada de vídeos com mudanças significativas de ponto de vista. Para resolver o desafio apresentado por entradas esparsas, empregamos métodos de edição de imagem para gerar resultados editados para o primeiro quadro, que são então propagados para os quadros restantes do vídeo. Utilizamos esboços como uma ferramenta de interação para controle preciso de geometria, enquanto outros métodos de edição de imagem baseados em máscaras também são suportados. Para lidar com mudanças de ponto de vista, realizamos uma análise detalhada e manipulação das informações 3D no vídeo. Especificamente, utilizamos um método estéreo denso para estimar uma nuvem de pontos e os parâmetros da câmera do vídeo de entrada. Em seguida, propomos uma abordagem de edição de nuvem de pontos que utiliza mapas de profundidade para representar a geometria 3D dos componentes recém-editados, alinhando-os efetivamente com a cena 3D original. Para integrar perfeitamente o conteúdo recém-editado com o vídeo original, preservando as características das regiões não editadas, introduzimos uma estratégia de propagação de máscara 3D e empregamos um modelo de difusão de vídeo para produzir vídeos editados realistas. Experimentos extensivos demonstram a superioridade do Sketch3DVE na edição de vídeos. Página inicial e código: http://geometrylearning.com/Sketch3DVE/
English
Recent video editing methods achieve attractive results in style transfer or
appearance modification. However, editing the structural content of 3D scenes
in videos remains challenging, particularly when dealing with significant
viewpoint changes, such as large camera rotations or zooms. Key challenges
include generating novel view content that remains consistent with the original
video, preserving unedited regions, and translating sparse 2D inputs into
realistic 3D video outputs. To address these issues, we propose Sketch3DVE, a
sketch-based 3D-aware video editing method to enable detailed local
manipulation of videos with significant viewpoint changes. To solve the
challenge posed by sparse inputs, we employ image editing methods to generate
edited results for the first frame, which are then propagated to the remaining
frames of the video. We utilize sketching as an interaction tool for precise
geometry control, while other mask-based image editing methods are also
supported. To handle viewpoint changes, we perform a detailed analysis and
manipulation of the 3D information in the video. Specifically, we utilize a
dense stereo method to estimate a point cloud and the camera parameters of the
input video. We then propose a point cloud editing approach that uses depth
maps to represent the 3D geometry of newly edited components, aligning them
effectively with the original 3D scene. To seamlessly merge the newly edited
content with the original video while preserving the features of unedited
regions, we introduce a 3D-aware mask propagation strategy and employ a video
diffusion model to produce realistic edited videos. Extensive experiments
demonstrate the superiority of Sketch3DVE in video editing. Homepage and code:
http://http://geometrylearning.com/Sketch3DVE/