ObjFiller-3D : Inpainting 3D multi-vues cohérent via des modèles de diffusion vidéo
ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models
August 25, 2025
papers.authors: Haitang Feng, Jie Liu, Jie Tang, Gangshan Wu, Beiqi Chen, Jianhuang Lai, Guangcong Wang
cs.AI
papers.abstract
L'inpainting 3D repose souvent sur l'inpainting d'images 2D multi-vues, où les incohérences inhérentes entre les différentes vues inpaintées peuvent entraîner des textures floues, des discontinuités spatiales et des artefacts visuels perturbateurs. Ces incohérences posent des défis majeurs lorsqu'il s'agit de réaliser une complétion d'objets 3D précise et réaliste, en particulier dans des applications exigeant une haute fidélité et une cohérence structurelle. Pour surmonter ces limitations, nous proposons ObjFiller-3D, une méthode novatrice conçue pour la complétion et l'édition d'objets 3D de haute qualité et cohérents. Au lieu d'utiliser un modèle d'inpainting d'images 2D conventionnel, notre approche exploite une sélection minutieuse de modèles de pointe en édition vidéo pour remplir les régions masquées des objets 3D. Nous analysons l'écart de représentation entre la 3D et les vidéos, et proposons une adaptation d'un modèle d'inpainting vidéo pour l'inpainting de scènes 3D. De plus, nous introduisons une méthode d'inpainting 3D basée sur des références pour améliorer davantage la qualité de la reconstruction. Les expériences menées sur divers ensembles de données montrent que, par rapport aux méthodes précédentes, ObjFiller-3D produit des reconstructions plus fidèles et plus fines (PSNR de 26,6 contre 15,9 pour NeRFiller et LPIPS de 0,19 contre 0,25 pour Instant3dit). De plus, il démontre un fort potentiel pour un déploiement pratique dans des applications d'édition 3D en conditions réelles. Page du projet : https://objfiller3d.github.io/ Code : https://github.com/objfiller3d/ObjFiller-3D .
English
3D inpainting often relies on multi-view 2D image inpainting, where the
inherent inconsistencies across different inpainted views can result in blurred
textures, spatial discontinuities, and distracting visual artifacts. These
inconsistencies pose significant challenges when striving for accurate and
realistic 3D object completion, particularly in applications that demand high
fidelity and structural coherence. To overcome these limitations, we propose
ObjFiller-3D, a novel method designed for the completion and editing of
high-quality and consistent 3D objects. Instead of employing a conventional 2D
image inpainting model, our approach leverages a curated selection of
state-of-the-art video editing model to fill in the masked regions of 3D
objects. We analyze the representation gap between 3D and videos, and propose
an adaptation of a video inpainting model for 3D scene inpainting. In addition,
we introduce a reference-based 3D inpainting method to further enhance the
quality of reconstruction. Experiments across diverse datasets show that
compared to previous methods, ObjFiller-3D produces more faithful and
fine-grained reconstructions (PSNR of 26.6 vs. NeRFiller (15.9) and LPIPS of
0.19 vs. Instant3dit (0.25)). Moreover, it demonstrates strong potential for
practical deployment in real-world 3D editing applications. Project page:
https://objfiller3d.github.io/ Code:
https://github.com/objfiller3d/ObjFiller-3D .