ObjFiller-3D: Konsistente Multi-View-3D-Inpainting mittels Video-Diffusionsmodellen
ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models
August 25, 2025
papers.authors: Haitang Feng, Jie Liu, Jie Tang, Gangshan Wu, Beiqi Chen, Jianhuang Lai, Guangcong Wang
cs.AI
papers.abstract
3D-Inpainting stützt sich häufig auf Multi-View-2D-Bildinpainting, bei dem die inhärenten Inkonsistenzen zwischen den verschiedenen inpainten Ansichten zu verschwommenen Texturen, räumlichen Diskontinuitäten und ablenkenden visuellen Artefakten führen können. Diese Inkonsistenzen stellen erhebliche Herausforderungen dar, wenn es darum geht, eine präzise und realistische 3D-Objektvervollständigung zu erreichen, insbesondere in Anwendungen, die hohe Detailtreue und strukturelle Kohärenz erfordern. Um diese Einschränkungen zu überwinden, schlagen wir ObjFiller-3D vor, eine neuartige Methode zur Vervollständigung und Bearbeitung von hochwertigen und konsistenten 3D-Objekten. Anstatt ein konventionelles 2D-Bildinpainting-Modell zu verwenden, nutzt unser Ansatz eine sorgfältig ausgewählte Auswahl von state-of-the-art Video-Bearbeitungsmodellen, um die maskierten Bereiche von 3D-Objekten zu füllen. Wir analysieren die Repräsentationslücke zwischen 3D und Videos und schlagen eine Anpassung eines Video-Inpainting-Modells für 3D-Szeneninpainting vor. Zusätzlich führen wir eine referenzbasierte 3D-Inpainting-Methode ein, um die Rekonstruktionsqualität weiter zu verbessern. Experimente über verschiedene Datensätze hinweg zeigen, dass ObjFiller-3D im Vergleich zu früheren Methoden treuere und feingranulare Rekonstruktionen erzeugt (PSNR von 26,6 gegenüber NeRFiller (15,9) und LPIPS von 0,19 gegenüber Instant3dit (0,25)). Darüber hinaus zeigt es ein starkes Potenzial für den praktischen Einsatz in realen 3D-Bearbeitungsanwendungen. Projektseite: https://objfiller3d.github.io/ Code: https://github.com/objfiller3d/ObjFiller-3D.
English
3D inpainting often relies on multi-view 2D image inpainting, where the
inherent inconsistencies across different inpainted views can result in blurred
textures, spatial discontinuities, and distracting visual artifacts. These
inconsistencies pose significant challenges when striving for accurate and
realistic 3D object completion, particularly in applications that demand high
fidelity and structural coherence. To overcome these limitations, we propose
ObjFiller-3D, a novel method designed for the completion and editing of
high-quality and consistent 3D objects. Instead of employing a conventional 2D
image inpainting model, our approach leverages a curated selection of
state-of-the-art video editing model to fill in the masked regions of 3D
objects. We analyze the representation gap between 3D and videos, and propose
an adaptation of a video inpainting model for 3D scene inpainting. In addition,
we introduce a reference-based 3D inpainting method to further enhance the
quality of reconstruction. Experiments across diverse datasets show that
compared to previous methods, ObjFiller-3D produces more faithful and
fine-grained reconstructions (PSNR of 26.6 vs. NeRFiller (15.9) and LPIPS of
0.19 vs. Instant3dit (0.25)). Moreover, it demonstrates strong potential for
practical deployment in real-world 3D editing applications. Project page:
https://objfiller3d.github.io/ Code:
https://github.com/objfiller3d/ObjFiller-3D .