Blended-NeRF:既存のニューラルラジアンスフィールドにおけるゼロショットオブジェクト生成とブレンディング
Blended-NeRF: Zero-Shot Object Generation and Blending in Existing Neural Radiance Fields
June 22, 2023
著者: Ori Gordon, Omri Avrahami, Dani Lischinski
cs.AI
要旨
NeRFで表現された3Dシーン内の特定の領域やオブジェクトを編集することは、シーン表現の暗黙的な性質から困難を伴います。特に、新しいリアルなオブジェクトをシーンに自然に融合させることは、さらなる難易度を加えます。本論文では、Blended-NeRFを提案します。これは、既存のNeRFシーン内の特定の関心領域を、テキストプロンプトや画像パッチ、3D ROIボックスに基づいて編集するための堅牢で柔軟なフレームワークです。本手法は、事前学習済みの言語-画像モデルを活用して、ユーザーが提供したテキストプロンプトや画像パッチに沿った合成を導き、既存のNeRFシーンに初期化された3D MLPモデルを使用してオブジェクトを生成し、元のシーンの指定された領域に自然に融合させます。3D ROIボックスを入力シーン内に局所化することで局所的な編集を可能にし、新たな体積的ブレンディング技術を用いてROI内で合成されたコンテンツを既存のシーンとシームレスに融合させます。自然で視点一貫性のある結果を得るために、既存および新規の幾何学的プライアと3D拡張を活用し、最終結果の視覚的忠実度を向上させます。
本フレームワークは、多様な実3Dシーンとテキストプロンプトを用いて定性的および定量的にテストされ、ベースラインと比較して現実的で多視点一貫性のある結果を高い柔軟性と多様性で実現することを示しています。最後に、シーンへの新しいオブジェクトの追加、既存オブジェクトの削除/置換/変更、テクスチャ変換など、いくつかの3D編集アプリケーションへの適用可能性を示します。
English
Editing a local region or a specific object in a 3D scene represented by a
NeRF is challenging, mainly due to the implicit nature of the scene
representation. Consistently blending a new realistic object into the scene
adds an additional level of difficulty. We present Blended-NeRF, a robust and
flexible framework for editing a specific region of interest in an existing
NeRF scene, based on text prompts or image patches, along with a 3D ROI box.
Our method leverages a pretrained language-image model to steer the synthesis
towards a user-provided text prompt or image patch, along with a 3D MLP model
initialized on an existing NeRF scene to generate the object and blend it into
a specified region in the original scene. We allow local editing by localizing
a 3D ROI box in the input scene, and seamlessly blend the content synthesized
inside the ROI with the existing scene using a novel volumetric blending
technique. To obtain natural looking and view-consistent results, we leverage
existing and new geometric priors and 3D augmentations for improving the visual
fidelity of the final result.
We test our framework both qualitatively and quantitatively on a variety of
real 3D scenes and text prompts, demonstrating realistic multi-view consistent
results with much flexibility and diversity compared to the baselines. Finally,
we show the applicability of our framework for several 3D editing applications,
including adding new objects to a scene, removing/replacing/altering existing
objects, and texture conversion.