Blended-NeRF: Generazione e Fusione Zero-Shot di Oggetti in Campi di Radianza Neurale Esistenti

Abstract

Modificare una regione locale o un oggetto specifico in una scena 3D rappresentata da un NeRF è una sfida, principalmente a causa della natura implicita della rappresentazione della scena. La fusione coerente di un nuovo oggetto realistico nella scena aggiunge un ulteriore livello di difficoltà. Presentiamo Blended-NeRF, un framework robusto e flessibile per modificare una specifica regione di interesse in una scena NeRF esistente, basato su prompt testuali o patch di immagini, insieme a una scatola ROI 3D. Il nostro metodo sfrutta un modello linguistico-immagine preaddestrato per orientare la sintesi verso un prompt testuale o una patch di immagine fornita dall'utente, insieme a un modello MLP 3D inizializzato su una scena NeRF esistente per generare l'oggetto e integrarlo in una regione specifica della scena originale. Consentiamo la modifica locale localizzando una scatola ROI 3D nella scena di input e fondiamo senza soluzione di continuità il contenuto sintetizzato all'interno della ROI con la scena esistente utilizzando una nuova tecnica di fusione volumetrica. Per ottenere risultati naturali e coerenti tra le diverse visualizzazioni, sfruttiamo precedenti geometrici esistenti e nuove aumentazioni 3D per migliorare la fedeltà visiva del risultato finale. Testiamo il nostro framework sia qualitativamente che quantitativamente su una varietà di scene 3D reali e prompt testuali, dimostrando risultati realistici e coerenti tra più visualizzazioni con una maggiore flessibilità e diversità rispetto ai metodi di riferimento. Infine, mostriamo l'applicabilità del nostro framework per diverse applicazioni di editing 3D, tra cui l'aggiunta di nuovi oggetti a una scena, la rimozione/sostituzione/modifica di oggetti esistenti e la conversione delle texture.

English

Editing a local region or a specific object in a 3D scene represented by a NeRF is challenging, mainly due to the implicit nature of the scene representation. Consistently blending a new realistic object into the scene adds an additional level of difficulty. We present Blended-NeRF, a robust and flexible framework for editing a specific region of interest in an existing NeRF scene, based on text prompts or image patches, along with a 3D ROI box. Our method leverages a pretrained language-image model to steer the synthesis towards a user-provided text prompt or image patch, along with a 3D MLP model initialized on an existing NeRF scene to generate the object and blend it into a specified region in the original scene. We allow local editing by localizing a 3D ROI box in the input scene, and seamlessly blend the content synthesized inside the ROI with the existing scene using a novel volumetric blending technique. To obtain natural looking and view-consistent results, we leverage existing and new geometric priors and 3D augmentations for improving the visual fidelity of the final result. We test our framework both qualitatively and quantitatively on a variety of real 3D scenes and text prompts, demonstrating realistic multi-view consistent results with much flexibility and diversity compared to the baselines. Finally, we show the applicability of our framework for several 3D editing applications, including adding new objects to a scene, removing/replacing/altering existing objects, and texture conversion.

Blended-NeRF: Generazione e Fusione Zero-Shot di Oggetti in Campi di Radianza Neurale Esistenti

Blended-NeRF: Zero-Shot Object Generation and Blending in Existing Neural Radiance Fields

Abstract

Support