ChatPaper.aiChatPaper

Difix3D+: 단일 단계 확산 모델을 활용한 3D 재구성 개선

Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

March 3, 2025
저자: Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling
cs.AI

초록

Neural Radiance Fields(NeRF)와 3D Gaussian Splatting은 3D 재구성 및 새로운 시점 합성 작업에 혁신을 가져왔습니다. 그러나 극단적인 새로운 시점에서의 사실적인 렌더링을 달성하는 것은 여전히 어려운 과제로, 다양한 표현 방식에서 아티팩트가 지속적으로 발생합니다. 본 연구에서는 단일 단계 확산 모델을 통해 3D 재구성과 새로운 시점 합성을 향상시키기 위해 설계된 새로운 파이프라인인 Difix3D+를 소개합니다. 우리의 접근 방식의 핵심은 3D 표현의 제약이 부족한 영역으로 인해 렌더링된 새로운 시점에서 발생하는 아티팩트를 제거하고 향상시키도록 훈련된 단일 단계 이미지 확산 모델인 Difix입니다. Difix는 우리의 파이프라인에서 두 가지 중요한 역할을 수행합니다. 첫째, 재구성 단계에서 재구성된 가짜 훈련 뷰를 정리한 후 이를 다시 3D로 증류하는 데 사용됩니다. 이는 제약이 부족한 영역을 크게 향상시키고 전반적인 3D 표현 품질을 개선합니다. 더 중요한 것은, Difix가 추론 단계에서 신경망 향상기로 작용하여 불완전한 3D 지도와 현재 재구성 모델의 제한된 용량으로 인해 발생하는 잔여 아티팩트를 효과적으로 제거한다는 점입니다. Difix3D+는 NeRF와 3DGS 표현 모두와 호환되는 일반적인 솔루션으로, 3D 일관성을 유지하면서 기준선 대비 평균 2배의 FID 점수 향상을 달성합니다.
English
Neural Radiance Fields and 3D Gaussian Splatting have revolutionized 3D reconstruction and novel-view synthesis task. However, achieving photorealistic rendering from extreme novel viewpoints remains challenging, as artifacts persist across representations. In this work, we introduce Difix3D+, a novel pipeline designed to enhance 3D reconstruction and novel-view synthesis through single-step diffusion models. At the core of our approach is Difix, a single-step image diffusion model trained to enhance and remove artifacts in rendered novel views caused by underconstrained regions of the 3D representation. Difix serves two critical roles in our pipeline. First, it is used during the reconstruction phase to clean up pseudo-training views that are rendered from the reconstruction and then distilled back into 3D. This greatly enhances underconstrained regions and improves the overall 3D representation quality. More importantly, Difix also acts as a neural enhancer during inference, effectively removing residual artifacts arising from imperfect 3D supervision and the limited capacity of current reconstruction models. Difix3D+ is a general solution, a single model compatible with both NeRF and 3DGS representations, and it achieves an average 2times improvement in FID score over baselines while maintaining 3D consistency.

Summary

AI-Generated Summary

PDF442March 4, 2025