ObjFiller-3D: Preenchimento 3D Consistente em Múltiplas Visões por meio de Modelos de Difusão de Vídeo
ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models
August 25, 2025
Autores: Haitang Feng, Jie Liu, Jie Tang, Gangshan Wu, Beiqi Chen, Jianhuang Lai, Guangcong Wang
cs.AI
Resumo
O preenchimento 3D frequentemente depende do preenchimento de imagens 2D de múltiplas visões, onde as inconsistências inerentes entre as diferentes visões preenchidas podem resultar em texturas borradas, descontinuidades espaciais e artefatos visuais perturbadores. Essas inconsistências representam desafios significativos ao buscar a conclusão precisa e realista de objetos 3D, especialmente em aplicações que exigem alta fidelidade e coerência estrutural. Para superar essas limitações, propomos o ObjFiller-3D, um método novo projetado para a conclusão e edição de objetos 3D de alta qualidade e consistência. Em vez de empregar um modelo convencional de preenchimento de imagens 2D, nossa abordagem utiliza uma seleção criteriosa de modelos de edição de vídeo de última geração para preencher as regiões mascaradas de objetos 3D. Analisamos a lacuna de representação entre 3D e vídeos e propomos uma adaptação de um modelo de preenchimento de vídeo para o preenchimento de cenas 3D. Além disso, introduzimos um método de preenchimento 3D baseado em referência para aprimorar ainda mais a qualidade da reconstrução. Experimentos em diversos conjuntos de dados mostram que, em comparação com métodos anteriores, o ObjFiller-3D produz reconstruções mais fiéis e detalhadas (PSNR de 26,6 vs. NeRFiller (15,9) e LPIPS de 0,19 vs. Instant3dit (0,25)). Além disso, ele demonstra um forte potencial para implantação prática em aplicações reais de edição 3D. Página do projeto: https://objfiller3d.github.io/ Código: https://github.com/objfiller3d/ObjFiller-3D.
English
3D inpainting often relies on multi-view 2D image inpainting, where the
inherent inconsistencies across different inpainted views can result in blurred
textures, spatial discontinuities, and distracting visual artifacts. These
inconsistencies pose significant challenges when striving for accurate and
realistic 3D object completion, particularly in applications that demand high
fidelity and structural coherence. To overcome these limitations, we propose
ObjFiller-3D, a novel method designed for the completion and editing of
high-quality and consistent 3D objects. Instead of employing a conventional 2D
image inpainting model, our approach leverages a curated selection of
state-of-the-art video editing model to fill in the masked regions of 3D
objects. We analyze the representation gap between 3D and videos, and propose
an adaptation of a video inpainting model for 3D scene inpainting. In addition,
we introduce a reference-based 3D inpainting method to further enhance the
quality of reconstruction. Experiments across diverse datasets show that
compared to previous methods, ObjFiller-3D produces more faithful and
fine-grained reconstructions (PSNR of 26.6 vs. NeRFiller (15.9) and LPIPS of
0.19 vs. Instant3dit (0.25)). Moreover, it demonstrates strong potential for
practical deployment in real-world 3D editing applications. Project page:
https://objfiller3d.github.io/ Code:
https://github.com/objfiller3d/ObjFiller-3D .