ChatPaper.aiChatPaper

InseRF: Inserción Generativa de Objetos Guiada por Texto en Escenas Neurales 3D

InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes

January 10, 2024
Autores: Mohamad Shahbazi, Liesbeth Claessens, Michael Niemeyer, Edo Collins, Alessio Tonioni, Luc Van Gool, Federico Tombari
cs.AI

Resumen

Presentamos InseRF, un método novedoso para la inserción generativa de objetos en reconstrucciones NeRF de escenas 3D. Basado en una descripción textual proporcionada por el usuario y un cuadro delimitador 2D en una vista de referencia, InseRF genera nuevos objetos en escenas 3D. Recientemente, los métodos para la edición de escenas 3D han experimentado una transformación profunda, gracias al uso de fuertes priors de modelos de difusión texto-imagen en el modelado generativo 3D. Los métodos existentes son principalmente efectivos para editar escenas 3D mediante cambios de estilo y apariencia o para eliminar objetos existentes. Sin embargo, la generación de nuevos objetos sigue siendo un desafío para estos métodos, el cual abordamos en este estudio. Específicamente, proponemos anclar la inserción de objetos 3D a una inserción de objetos 2D en una vista de referencia de la escena. La edición 2D se eleva luego a 3D utilizando un método de reconstrucción de objetos de una sola vista. El objeto reconstruido se inserta entonces en la escena, guiado por los priors de métodos de estimación de profundidad monocular. Evaluamos nuestro método en varias escenas 3D y proporcionamos un análisis detallado de los componentes propuestos. Nuestros experimentos con la inserción generativa de objetos en varias escenas 3D indican la efectividad de nuestro método en comparación con los métodos existentes. InseRF es capaz de realizar inserciones de objetos controlables y consistentes en 3D sin requerir información 3D explícita como entrada. Visite nuestra página del proyecto en https://mohamad-shahbazi.github.io/inserf.
English
We introduce InseRF, a novel method for generative object insertion in the NeRF reconstructions of 3D scenes. Based on a user-provided textual description and a 2D bounding box in a reference viewpoint, InseRF generates new objects in 3D scenes. Recently, methods for 3D scene editing have been profoundly transformed, owing to the use of strong priors of text-to-image diffusion models in 3D generative modeling. Existing methods are mostly effective in editing 3D scenes via style and appearance changes or removing existing objects. Generating new objects, however, remains a challenge for such methods, which we address in this study. Specifically, we propose grounding the 3D object insertion to a 2D object insertion in a reference view of the scene. The 2D edit is then lifted to 3D using a single-view object reconstruction method. The reconstructed object is then inserted into the scene, guided by the priors of monocular depth estimation methods. We evaluate our method on various 3D scenes and provide an in-depth analysis of the proposed components. Our experiments with generative insertion of objects in several 3D scenes indicate the effectiveness of our method compared to the existing methods. InseRF is capable of controllable and 3D-consistent object insertion without requiring explicit 3D information as input. Please visit our project page at https://mohamad-shahbazi.github.io/inserf.
PDF300December 15, 2024