ChatPaper.aiChatPaper

ObjFiller-3D: Consistente Multi-view 3D-inpainting via Video-diffusiemodellen

ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models

August 25, 2025
Auteurs: Haitang Feng, Jie Liu, Jie Tang, Gangshan Wu, Beiqi Chen, Jianhuang Lai, Guangcong Wang
cs.AI

Samenvatting

3D-inpainting is vaak afhankelijk van multi-view 2D-beeldinpainting, waarbij de inherente inconsistenties tussen verschillende ingevulde views kunnen leiden tot vervaagde texturen, ruimtelijke discontinuïteiten en afleidende visuele artefacten. Deze inconsistenties vormen aanzienlijke uitdagingen bij het streven naar nauwkeurige en realistische 3D-objectcompletering, met name in toepassingen die hoge betrouwbaarheid en structurele samenhang vereisen. Om deze beperkingen te overwinnen, stellen we ObjFiller-3D voor, een nieuwe methode ontworpen voor het completeren en bewerken van hoogwaardige en consistente 3D-objecten. In plaats van een conventioneel 2D-beeldinpaintingmodel te gebruiken, maakt onze aanpak gebruik van een zorgvuldig geselecteerde state-of-the-art video-editingmodel om de gemaskeerde gebieden van 3D-objecten in te vullen. We analyseren de representatiekloof tussen 3D en video's en stellen een aanpassing van een video-inpaintingmodel voor 3D-sceneinpainting voor. Daarnaast introduceren we een referentiegebaseerde 3D-inpaintingmethode om de kwaliteit van de reconstructie verder te verbeteren. Experimenten op diverse datasets tonen aan dat ObjFiller-3D, vergeleken met eerdere methoden, meer getrouwe en fijnmazige reconstructies produceert (PSNR van 26,6 vs. NeRFiller (15,9) en LPIPS van 0,19 vs. Instant3dit (0,25)). Bovendien toont het sterke potentie voor praktische implementatie in real-world 3D-editingtoepassingen. Projectpagina: https://objfiller3d.github.io/ Code: https://github.com/objfiller3d/ObjFiller-3D.
English
3D inpainting often relies on multi-view 2D image inpainting, where the inherent inconsistencies across different inpainted views can result in blurred textures, spatial discontinuities, and distracting visual artifacts. These inconsistencies pose significant challenges when striving for accurate and realistic 3D object completion, particularly in applications that demand high fidelity and structural coherence. To overcome these limitations, we propose ObjFiller-3D, a novel method designed for the completion and editing of high-quality and consistent 3D objects. Instead of employing a conventional 2D image inpainting model, our approach leverages a curated selection of state-of-the-art video editing model to fill in the masked regions of 3D objects. We analyze the representation gap between 3D and videos, and propose an adaptation of a video inpainting model for 3D scene inpainting. In addition, we introduce a reference-based 3D inpainting method to further enhance the quality of reconstruction. Experiments across diverse datasets show that compared to previous methods, ObjFiller-3D produces more faithful and fine-grained reconstructions (PSNR of 26.6 vs. NeRFiller (15.9) and LPIPS of 0.19 vs. Instant3dit (0.25)). Moreover, it demonstrates strong potential for practical deployment in real-world 3D editing applications. Project page: https://objfiller3d.github.io/ Code: https://github.com/objfiller3d/ObjFiller-3D .
PDF72August 27, 2025