ObjFiller-3D: 비디오 확산 모델을 통한 일관된 다중 뷰 3D 인페인팅
ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models
August 25, 2025
저자: Haitang Feng, Jie Liu, Jie Tang, Gangshan Wu, Beiqi Chen, Jianhuang Lai, Guangcong Wang
cs.AI
초록
3D 인페인팅은 종종 다중 뷰 2D 이미지 인페인팅에 의존하는데, 이때 서로 다른 인페인팅된 뷰 간의 내재적 불일치로 인해 흐릿한 텍스처, 공간적 불연속성, 그리고 주의를 분산시키는 시각적 아티팩트가 발생할 수 있습니다. 이러한 불일치는 특히 높은 충실도와 구조적 일관성을 요구하는 응용 분야에서 정확하고 사실적인 3D 객체 완성을 위해 상당한 도전 과제로 작용합니다. 이러한 한계를 극복하기 위해, 우리는 고품질이고 일관된 3D 객체의 완성 및 편집을 위해 설계된 새로운 방법인 ObjFiller-3D를 제안합니다. 기존의 2D 이미지 인페인팅 모델을 사용하는 대신, 우리의 접근 방식은 최신 비디오 편집 모델을 활용하여 3D 객체의 마스크된 영역을 채웁니다. 우리는 3D와 비디오 간의 표현 차이를 분석하고, 3D 장면 인페인팅을 위해 비디오 인페인팅 모델을 적응시키는 방법을 제안합니다. 또한, 재구성 품질을 더욱 향상시키기 위해 참조 기반 3D 인페인팅 방법을 도입합니다. 다양한 데이터셋에 대한 실험 결과, ObjFiller-3D는 이전 방법들에 비해 더 정확하고 세밀한 재구성을 제공함을 보여줍니다(PSNR 26.6 대 NeRFiller 15.9, LPIPS 0.19 대 Instant3dit 0.25). 더 나아가, 이 방법은 실제 3D 편집 응용 분야에서의 실용적 배포에 대한 강력한 잠재력을 보여줍니다. 프로젝트 페이지: https://objfiller3d.github.io/ 코드: https://github.com/objfiller3d/ObjFiller-3D .
English
3D inpainting often relies on multi-view 2D image inpainting, where the
inherent inconsistencies across different inpainted views can result in blurred
textures, spatial discontinuities, and distracting visual artifacts. These
inconsistencies pose significant challenges when striving for accurate and
realistic 3D object completion, particularly in applications that demand high
fidelity and structural coherence. To overcome these limitations, we propose
ObjFiller-3D, a novel method designed for the completion and editing of
high-quality and consistent 3D objects. Instead of employing a conventional 2D
image inpainting model, our approach leverages a curated selection of
state-of-the-art video editing model to fill in the masked regions of 3D
objects. We analyze the representation gap between 3D and videos, and propose
an adaptation of a video inpainting model for 3D scene inpainting. In addition,
we introduce a reference-based 3D inpainting method to further enhance the
quality of reconstruction. Experiments across diverse datasets show that
compared to previous methods, ObjFiller-3D produces more faithful and
fine-grained reconstructions (PSNR of 26.6 vs. NeRFiller (15.9) and LPIPS of
0.19 vs. Instant3dit (0.25)). Moreover, it demonstrates strong potential for
practical deployment in real-world 3D editing applications. Project page:
https://objfiller3d.github.io/ Code:
https://github.com/objfiller3d/ObjFiller-3D .