ObjFiller-3D: Rellenado 3D consistente en múltiples vistas mediante modelos de difusión de video
ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models
August 25, 2025
Autores: Haitang Feng, Jie Liu, Jie Tang, Gangshan Wu, Beiqi Chen, Jianhuang Lai, Guangcong Wang
cs.AI
Resumen
El inpainting 3D a menudo depende del inpainting de imágenes 2D multi-vista, donde las inconsistencias inherentes entre las diferentes vistas inpintadas pueden resultar en texturas borrosas, discontinuidades espaciales y artefactos visuales distractores. Estas inconsistencias representan desafíos significativos al buscar una completación precisa y realista de objetos 3D, particularmente en aplicaciones que exigen alta fidelidad y coherencia estructural. Para superar estas limitaciones, proponemos ObjFiller-3D, un método novedoso diseñado para la completación y edición de objetos 3D de alta calidad y consistencia. En lugar de emplear un modelo convencional de inpainting de imágenes 2D, nuestro enfoque aprovecha una selección curada de modelos de edición de video de última generación para rellenar las regiones enmascaradas de objetos 3D. Analizamos la brecha de representación entre 3D y videos, y proponemos una adaptación de un modelo de inpainting de video para el inpainting de escenas 3D. Además, introducimos un método de inpainting 3D basado en referencias para mejorar aún más la calidad de la reconstrucción. Los experimentos en diversos conjuntos de datos muestran que, en comparación con métodos anteriores, ObjFiller-3D produce reconstrucciones más fieles y detalladas (PSNR de 26.6 frente a NeRFiller (15.9) y LPIPS de 0.19 frente a Instant3dit (0.25)). Además, demuestra un fuerte potencial para su implementación práctica en aplicaciones de edición 3D del mundo real. Página del proyecto: https://objfiller3d.github.io/ Código: https://github.com/objfiller3d/ObjFiller-3D.
English
3D inpainting often relies on multi-view 2D image inpainting, where the
inherent inconsistencies across different inpainted views can result in blurred
textures, spatial discontinuities, and distracting visual artifacts. These
inconsistencies pose significant challenges when striving for accurate and
realistic 3D object completion, particularly in applications that demand high
fidelity and structural coherence. To overcome these limitations, we propose
ObjFiller-3D, a novel method designed for the completion and editing of
high-quality and consistent 3D objects. Instead of employing a conventional 2D
image inpainting model, our approach leverages a curated selection of
state-of-the-art video editing model to fill in the masked regions of 3D
objects. We analyze the representation gap between 3D and videos, and propose
an adaptation of a video inpainting model for 3D scene inpainting. In addition,
we introduce a reference-based 3D inpainting method to further enhance the
quality of reconstruction. Experiments across diverse datasets show that
compared to previous methods, ObjFiller-3D produces more faithful and
fine-grained reconstructions (PSNR of 26.6 vs. NeRFiller (15.9) and LPIPS of
0.19 vs. Instant3dit (0.25)). Moreover, it demonstrates strong potential for
practical deployment in real-world 3D editing applications. Project page:
https://objfiller3d.github.io/ Code:
https://github.com/objfiller3d/ObjFiller-3D .