Difix3D+: シングルステップ拡散モデルによる3D再構成の改善
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
March 3, 2025
著者: Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling
cs.AI
要旨
ニューラルラジアンスフィールド(NeRF)と3Dガウシアンスプラッティングは、3D再構成と新視点合成タスクに革命をもたらしました。しかし、極端な新視点からのフォトリアルなレンダリングを実現することは依然として困難であり、表現全体にわたってアーティファクトが残存しています。本研究では、単一ステップの拡散モデルを通じて3D再構成と新視点合成を強化する新しいパイプライン、Difix3D+を提案します。我々のアプローチの中核となるのは、3D表現の制約不足領域によって引き起こされるレンダリングされた新視点のアーティファクトを除去・強化するために訓練された単一ステップ画像拡散モデル、Difixです。Difixはパイプラインにおいて2つの重要な役割を果たします。まず、再構成フェーズにおいて、再構成からレンダリングされた疑似トレーニングビューをクリーンアップし、それを3Dに蒸留し直すために使用されます。これにより、制約不足領域が大幅に強化され、全体的な3D表現の品質が向上します。さらに重要なことに、Difixは推論時においてもニューラルエンハンサーとして機能し、不完全な3D監督と現在の再構成モデルの限られた能力から生じる残存アーティファクトを効果的に除去します。Difix3D+は一般的なソリューションであり、NeRFと3DGSの両方の表現と互換性のある単一モデルであり、3D一貫性を維持しながら、FIDスコアでベースラインに対して平均2倍の改善を達成します。
English
Neural Radiance Fields and 3D Gaussian Splatting have revolutionized 3D
reconstruction and novel-view synthesis task. However, achieving photorealistic
rendering from extreme novel viewpoints remains challenging, as artifacts
persist across representations. In this work, we introduce Difix3D+, a novel
pipeline designed to enhance 3D reconstruction and novel-view synthesis through
single-step diffusion models. At the core of our approach is Difix, a
single-step image diffusion model trained to enhance and remove artifacts in
rendered novel views caused by underconstrained regions of the 3D
representation. Difix serves two critical roles in our pipeline. First, it is
used during the reconstruction phase to clean up pseudo-training views that are
rendered from the reconstruction and then distilled back into 3D. This greatly
enhances underconstrained regions and improves the overall 3D representation
quality. More importantly, Difix also acts as a neural enhancer during
inference, effectively removing residual artifacts arising from imperfect 3D
supervision and the limited capacity of current reconstruction models. Difix3D+
is a general solution, a single model compatible with both NeRF and 3DGS
representations, and it achieves an average 2times improvement in FID score
over baselines while maintaining 3D consistency.Summary
AI-Generated Summary