ChatPaper.aiChatPaper

Blended-NeRF: 기존 신경 방사 필드에서의 제로샷 객체 생성 및 블렌딩

Blended-NeRF: Zero-Shot Object Generation and Blending in Existing Neural Radiance Fields

June 22, 2023
저자: Ori Gordon, Omri Avrahami, Dani Lischinski
cs.AI

초록

NeRF로 표현된 3D 장면에서 특정 지역이나 객체를 편집하는 것은 주로 장면 표현의 암묵적 특성으로 인해 어려운 과제입니다. 새로운 사실적인 객체를 장면에 자연스럽게 혼합하는 것은 추가적인 난이도를 더합니다. 우리는 텍스트 프롬프트나 이미지 패치와 함께 3D ROI 박스를 기반으로 기존 NeRF 장면의 특정 관심 영역을 편집하기 위한 강력하고 유연한 프레임워크인 Blended-NeRF를 제안합니다. 우리의 방법은 사용자가 제공한 텍스트 프롬프트나 이미지 패치를 통해 합성을 유도하기 위해 사전 훈련된 언어-이미지 모델을 활용하며, 기존 NeRF 장면에서 초기화된 3D MLP 모델을 사용하여 객체를 생성하고 원본 장면의 지정된 영역에 혼합합니다. 입력 장면에서 3D ROI 박스를 지역화하여 로컬 편집을 허용하고, 새로운 볼류메트릭 혼합 기술을 사용하여 ROI 내부에서 합성된 콘텐츠를 기존 장면과 자연스럽게 혼합합니다. 자연스럽고 시점 일관성 있는 결과를 얻기 위해, 우리는 기존 및 새로운 기하학적 사전 지식과 3D 증강 기술을 활용하여 최종 결과의 시각적 충실도를 개선합니다. 우리는 다양한 실제 3D 장면과 텍스트 프롬프트에 대해 우리의 프레임워크를 정성적 및 정량적으로 테스트하여, 베이스라인과 비교하여 훨씬 더 유연하고 다양한 사실적인 다중 시점 일관성 결과를 보여줍니다. 마지막으로, 우리는 새로운 객체를 장면에 추가하거나, 기존 객체를 제거/교체/변경하고, 텍스처 변환을 포함한 여러 3D 편집 애플리케이션에 대한 우리 프레임워크의 적용 가능성을 보여줍니다.
English
Editing a local region or a specific object in a 3D scene represented by a NeRF is challenging, mainly due to the implicit nature of the scene representation. Consistently blending a new realistic object into the scene adds an additional level of difficulty. We present Blended-NeRF, a robust and flexible framework for editing a specific region of interest in an existing NeRF scene, based on text prompts or image patches, along with a 3D ROI box. Our method leverages a pretrained language-image model to steer the synthesis towards a user-provided text prompt or image patch, along with a 3D MLP model initialized on an existing NeRF scene to generate the object and blend it into a specified region in the original scene. We allow local editing by localizing a 3D ROI box in the input scene, and seamlessly blend the content synthesized inside the ROI with the existing scene using a novel volumetric blending technique. To obtain natural looking and view-consistent results, we leverage existing and new geometric priors and 3D augmentations for improving the visual fidelity of the final result. We test our framework both qualitatively and quantitatively on a variety of real 3D scenes and text prompts, demonstrating realistic multi-view consistent results with much flexibility and diversity compared to the baselines. Finally, we show the applicability of our framework for several 3D editing applications, including adding new objects to a scene, removing/replacing/altering existing objects, and texture conversion.
PDF80December 15, 2024