Blended-NeRF: Generación y Fusión de Objetos en Cero-Shot en Campos de Radiancia Neurales Existentes
Blended-NeRF: Zero-Shot Object Generation and Blending in Existing Neural Radiance Fields
June 22, 2023
Autores: Ori Gordon, Omri Avrahami, Dani Lischinski
cs.AI
Resumen
Editar una región local o un objeto específico en una escena 3D representada por un NeRF es un desafío, principalmente debido a la naturaleza implícita de la representación de la escena. Mezclar de manera consistente un nuevo objeto realista en la escena añade un nivel adicional de dificultad. Presentamos Blended-NeRF, un marco robusto y flexible para editar una región de interés específica en una escena NeRF existente, basado en indicaciones de texto o parches de imagen, junto con una caja 3D de ROI. Nuestro método aprovecha un modelo de lenguaje-imagen preentrenado para guiar la síntesis hacia una indicación de texto o un parche de imagen proporcionado por el usuario, junto con un modelo MLP 3D inicializado en una escena NeRF existente para generar el objeto y mezclarlo en una región específica de la escena original. Permitimos la edición local mediante la localización de una caja 3D de ROI en la escena de entrada, y mezclamos de manera fluida el contenido sintetizado dentro del ROI con la escena existente utilizando una novedosa técnica de mezcla volumétrica. Para obtener resultados visualmente naturales y consistentes en todas las vistas, aprovechamos priores geométricos existentes y nuevos, así como aumentaciones 3D para mejorar la fidelidad visual del resultado final.
Probamos nuestro marco tanto cualitativa como cuantitativamente en una variedad de escenas 3D reales e indicaciones de texto, demostrando resultados realistas y consistentes en múltiples vistas con una gran flexibilidad y diversidad en comparación con los métodos base. Finalmente, mostramos la aplicabilidad de nuestro marco para varias aplicaciones de edición 3D, incluyendo la adición de nuevos objetos a una escena, la eliminación/reemplazo/modificación de objetos existentes y la conversión de texturas.
English
Editing a local region or a specific object in a 3D scene represented by a
NeRF is challenging, mainly due to the implicit nature of the scene
representation. Consistently blending a new realistic object into the scene
adds an additional level of difficulty. We present Blended-NeRF, a robust and
flexible framework for editing a specific region of interest in an existing
NeRF scene, based on text prompts or image patches, along with a 3D ROI box.
Our method leverages a pretrained language-image model to steer the synthesis
towards a user-provided text prompt or image patch, along with a 3D MLP model
initialized on an existing NeRF scene to generate the object and blend it into
a specified region in the original scene. We allow local editing by localizing
a 3D ROI box in the input scene, and seamlessly blend the content synthesized
inside the ROI with the existing scene using a novel volumetric blending
technique. To obtain natural looking and view-consistent results, we leverage
existing and new geometric priors and 3D augmentations for improving the visual
fidelity of the final result.
We test our framework both qualitatively and quantitatively on a variety of
real 3D scenes and text prompts, demonstrating realistic multi-view consistent
results with much flexibility and diversity compared to the baselines. Finally,
we show the applicability of our framework for several 3D editing applications,
including adding new objects to a scene, removing/replacing/altering existing
objects, and texture conversion.