ObjFiller-3D: Consistente Multi-view 3D-inpainting via Video-diffusiemodellen
ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models
August 25, 2025
Auteurs: Haitang Feng, Jie Liu, Jie Tang, Gangshan Wu, Beiqi Chen, Jianhuang Lai, Guangcong Wang
cs.AI
Samenvatting
3D-inpainting is vaak afhankelijk van multi-view 2D-beeldinpainting, waarbij de inherente inconsistenties tussen verschillende ingevulde views kunnen leiden tot vervaagde texturen, ruimtelijke discontinuïteiten en afleidende visuele artefacten. Deze inconsistenties vormen aanzienlijke uitdagingen bij het streven naar nauwkeurige en realistische 3D-objectcompletering, met name in toepassingen die hoge betrouwbaarheid en structurele samenhang vereisen. Om deze beperkingen te overwinnen, stellen we ObjFiller-3D voor, een nieuwe methode ontworpen voor het completeren en bewerken van hoogwaardige en consistente 3D-objecten. In plaats van een conventioneel 2D-beeldinpaintingmodel te gebruiken, maakt onze aanpak gebruik van een zorgvuldig geselecteerde state-of-the-art video-editingmodel om de gemaskeerde gebieden van 3D-objecten in te vullen. We analyseren de representatiekloof tussen 3D en video's en stellen een aanpassing van een video-inpaintingmodel voor 3D-sceneinpainting voor. Daarnaast introduceren we een referentiegebaseerde 3D-inpaintingmethode om de kwaliteit van de reconstructie verder te verbeteren. Experimenten op diverse datasets tonen aan dat ObjFiller-3D, vergeleken met eerdere methoden, meer getrouwe en fijnmazige reconstructies produceert (PSNR van 26,6 vs. NeRFiller (15,9) en LPIPS van 0,19 vs. Instant3dit (0,25)). Bovendien toont het sterke potentie voor praktische implementatie in real-world 3D-editingtoepassingen. Projectpagina: https://objfiller3d.github.io/ Code: https://github.com/objfiller3d/ObjFiller-3D.
English
3D inpainting often relies on multi-view 2D image inpainting, where the
inherent inconsistencies across different inpainted views can result in blurred
textures, spatial discontinuities, and distracting visual artifacts. These
inconsistencies pose significant challenges when striving for accurate and
realistic 3D object completion, particularly in applications that demand high
fidelity and structural coherence. To overcome these limitations, we propose
ObjFiller-3D, a novel method designed for the completion and editing of
high-quality and consistent 3D objects. Instead of employing a conventional 2D
image inpainting model, our approach leverages a curated selection of
state-of-the-art video editing model to fill in the masked regions of 3D
objects. We analyze the representation gap between 3D and videos, and propose
an adaptation of a video inpainting model for 3D scene inpainting. In addition,
we introduce a reference-based 3D inpainting method to further enhance the
quality of reconstruction. Experiments across diverse datasets show that
compared to previous methods, ObjFiller-3D produces more faithful and
fine-grained reconstructions (PSNR of 26.6 vs. NeRFiller (15.9) and LPIPS of
0.19 vs. Instant3dit (0.25)). Moreover, it demonstrates strong potential for
practical deployment in real-world 3D editing applications. Project page:
https://objfiller3d.github.io/ Code:
https://github.com/objfiller3d/ObjFiller-3D .