ChatPaper.aiChatPaper

Sketch3DVE: Edição de Vídeo de Cenas 3D Conscientes Baseada em Esboços

Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing

August 19, 2025
Autores: Feng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao
cs.AI

Resumo

Métodos recentes de edição de vídeo alcançam resultados atraentes em transferência de estilo ou modificação de aparência. No entanto, editar o conteúdo estrutural de cenas 3D em vídeos continua desafiador, especialmente ao lidar com mudanças significativas de ponto de vista, como grandes rotações ou zooms de câmera. Os principais desafios incluem gerar conteúdo de novas visualizações que permaneça consistente com o vídeo original, preservar regiões não editadas e traduzir entradas esparsas 2D em saídas de vídeo 3D realistas. Para abordar essas questões, propomos o Sketch3DVE, um método de edição de vídeo 3D baseado em esboços que permite manipulação local detalhada de vídeos com mudanças significativas de ponto de vista. Para resolver o desafio apresentado por entradas esparsas, empregamos métodos de edição de imagem para gerar resultados editados para o primeiro quadro, que são então propagados para os quadros restantes do vídeo. Utilizamos esboços como uma ferramenta de interação para controle preciso de geometria, enquanto outros métodos de edição de imagem baseados em máscaras também são suportados. Para lidar com mudanças de ponto de vista, realizamos uma análise detalhada e manipulação das informações 3D no vídeo. Especificamente, utilizamos um método estéreo denso para estimar uma nuvem de pontos e os parâmetros da câmera do vídeo de entrada. Em seguida, propomos uma abordagem de edição de nuvem de pontos que utiliza mapas de profundidade para representar a geometria 3D dos componentes recém-editados, alinhando-os efetivamente com a cena 3D original. Para integrar perfeitamente o conteúdo recém-editado com o vídeo original, preservando as características das regiões não editadas, introduzimos uma estratégia de propagação de máscara 3D e empregamos um modelo de difusão de vídeo para produzir vídeos editados realistas. Experimentos extensivos demonstram a superioridade do Sketch3DVE na edição de vídeos. Página inicial e código: http://geometrylearning.com/Sketch3DVE/
English
Recent video editing methods achieve attractive results in style transfer or appearance modification. However, editing the structural content of 3D scenes in videos remains challenging, particularly when dealing with significant viewpoint changes, such as large camera rotations or zooms. Key challenges include generating novel view content that remains consistent with the original video, preserving unedited regions, and translating sparse 2D inputs into realistic 3D video outputs. To address these issues, we propose Sketch3DVE, a sketch-based 3D-aware video editing method to enable detailed local manipulation of videos with significant viewpoint changes. To solve the challenge posed by sparse inputs, we employ image editing methods to generate edited results for the first frame, which are then propagated to the remaining frames of the video. We utilize sketching as an interaction tool for precise geometry control, while other mask-based image editing methods are also supported. To handle viewpoint changes, we perform a detailed analysis and manipulation of the 3D information in the video. Specifically, we utilize a dense stereo method to estimate a point cloud and the camera parameters of the input video. We then propose a point cloud editing approach that uses depth maps to represent the 3D geometry of newly edited components, aligning them effectively with the original 3D scene. To seamlessly merge the newly edited content with the original video while preserving the features of unedited regions, we introduce a 3D-aware mask propagation strategy and employ a video diffusion model to produce realistic edited videos. Extensive experiments demonstrate the superiority of Sketch3DVE in video editing. Homepage and code: http://http://geometrylearning.com/Sketch3DVE/
PDF72August 25, 2025