ObjFiller-3D: Inpainting 3D Multi-vista Coerente tramite Modelli di Diffusione Video
ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models
August 25, 2025
Autori: Haitang Feng, Jie Liu, Jie Tang, Gangshan Wu, Beiqi Chen, Jianhuang Lai, Guangcong Wang
cs.AI
Abstract
Il 3D inpainting si basa spesso sull'inpainting di immagini 2D multi-vista, dove le
inconsistenze intrinseche tra le diverse viste ricostruite possono portare a texture sfocate,
discontinuità spaziali e artefatti visivi distraenti. Queste
inconsistenze rappresentano sfide significative quando si cerca di ottenere un completamento
di oggetti 3D accurato e realistico, specialmente in applicazioni che richiedono un'elevata
fedeltà e coerenza strutturale. Per superare queste limitazioni, proponiamo
ObjFiller-3D, un metodo innovativo progettato per il completamento e la modifica di
oggetti 3D di alta qualità e coerenti. Invece di utilizzare un tradizionale modello
di inpainting di immagini 2D, il nostro approccio sfrutta una selezione curata di
modelli all'avanguardia per l'editing video per riempire le regioni mascherate degli oggetti 3D.
Analizziamo il divario rappresentativo tra il 3D e i video, e proponiamo
un adattamento di un modello di inpainting video per l'inpainting di scene 3D. Inoltre,
introduciamo un metodo di inpainting 3D basato su riferimento per migliorare ulteriormente la
qualità della ricostruzione. Esperimenti su diversi dataset dimostrano che,
rispetto ai metodi precedenti, ObjFiller-3D produce ricostruzioni più fedeli e
dettagliate (PSNR di 26.6 rispetto a NeRFiller (15.9) e LPIPS di
0.19 rispetto a Instant3dit (0.25)). Inoltre, mostra un forte potenziale per
un'implementazione pratica in applicazioni reali di editing 3D. Pagina del progetto:
https://objfiller3d.github.io/ Codice:
https://github.com/objfiller3d/ObjFiller-3D .
English
3D inpainting often relies on multi-view 2D image inpainting, where the
inherent inconsistencies across different inpainted views can result in blurred
textures, spatial discontinuities, and distracting visual artifacts. These
inconsistencies pose significant challenges when striving for accurate and
realistic 3D object completion, particularly in applications that demand high
fidelity and structural coherence. To overcome these limitations, we propose
ObjFiller-3D, a novel method designed for the completion and editing of
high-quality and consistent 3D objects. Instead of employing a conventional 2D
image inpainting model, our approach leverages a curated selection of
state-of-the-art video editing model to fill in the masked regions of 3D
objects. We analyze the representation gap between 3D and videos, and propose
an adaptation of a video inpainting model for 3D scene inpainting. In addition,
we introduce a reference-based 3D inpainting method to further enhance the
quality of reconstruction. Experiments across diverse datasets show that
compared to previous methods, ObjFiller-3D produces more faithful and
fine-grained reconstructions (PSNR of 26.6 vs. NeRFiller (15.9) and LPIPS of
0.19 vs. Instant3dit (0.25)). Moreover, it demonstrates strong potential for
practical deployment in real-world 3D editing applications. Project page:
https://objfiller3d.github.io/ Code:
https://github.com/objfiller3d/ObjFiller-3D .