DATENeRF: Diepte-bewust tekstgebaseerd bewerken van NeRF's
DATENeRF: Depth-Aware Text-based Editing of NeRFs
April 6, 2024
Auteurs: Sara Rojas, Julien Philip, Kai Zhang, Sai Bi, Fujun Luan, Bernard Ghanem, Kalyan Sunkavall
cs.AI
Samenvatting
Recente vooruitgang in diffusiemodellen heeft opmerkelijke vaardigheden getoond in het bewerken van 2D-afbeeldingen op basis van tekstprompts. Het uitbreiden van deze technieken om scènes in Neural Radiance Fields (NeRF) te bewerken is echter complex, omdat het bewerken van individuele 2D-frames kan leiden tot inconsistenties tussen meerdere perspectieven. Onze cruciale inzicht is dat de geometrie van een NeRF-scène kan dienen als een brug om deze 2D-bewerkingen te integreren. Door gebruik te maken van deze geometrie, passen we een diepte-geconditioneerde ControlNet toe om de samenhang van elke 2D-afbeeldingswijziging te verbeteren. Bovendien introduceren we een inpaintingsbenadering die gebruikmaakt van de diepte-informatie van NeRF-scènes om 2D-bewerkingen over verschillende afbeeldingen te verdelen, wat robuustheid tegen fouten en hersamplinguitdagingen waarborgt. Onze resultaten tonen aan dat deze methodologie consistentere, levensechtere en gedetailleerdere bewerkingen bereikt dan bestaande toonaangevende methoden voor tekstgestuurde NeRF-scènebewerking.
English
Recent advancements in diffusion models have shown remarkable proficiency in
editing 2D images based on text prompts. However, extending these techniques to
edit scenes in Neural Radiance Fields (NeRF) is complex, as editing individual
2D frames can result in inconsistencies across multiple views. Our crucial
insight is that a NeRF scene's geometry can serve as a bridge to integrate
these 2D edits. Utilizing this geometry, we employ a depth-conditioned
ControlNet to enhance the coherence of each 2D image modification. Moreover, we
introduce an inpainting approach that leverages the depth information of NeRF
scenes to distribute 2D edits across different images, ensuring robustness
against errors and resampling challenges. Our results reveal that this
methodology achieves more consistent, lifelike, and detailed edits than
existing leading methods for text-driven NeRF scene editing.