DATENeRF: Modifica basata su testo con consapevolezza della profondità per NeRF
DATENeRF: Depth-Aware Text-based Editing of NeRFs
April 6, 2024
Autori: Sara Rojas, Julien Philip, Kai Zhang, Sai Bi, Fujun Luan, Bernard Ghanem, Kalyan Sunkavall
cs.AI
Abstract
I recenti progressi nei modelli di diffusione hanno dimostrato una notevole capacità nel modificare immagini 2D basandosi su prompt testuali. Tuttavia, estendere queste tecniche per modificare scene in Neural Radiance Fields (NeRF) è complesso, poiché la modifica di singoli frame 2D può portare a incoerenze tra più viste. La nostra intuizione cruciale è che la geometria di una scena NeRF può fungere da ponte per integrare queste modifiche 2D. Utilizzando questa geometria, impieghiamo un ControlNet condizionato dalla profondità per migliorare la coerenza di ogni modifica delle immagini 2D. Inoltre, introduciamo un approccio di inpainting che sfrutta le informazioni sulla profondità delle scene NeRF per distribuire le modifiche 2D tra diverse immagini, garantendo robustezza contro errori e sfide di ricampionamento. I nostri risultati rivelano che questa metodologia raggiunge modifiche più consistenti, realistiche e dettagliate rispetto ai metodi leader esistenti per la modifica di scene NeRF guidata da testo.
English
Recent advancements in diffusion models have shown remarkable proficiency in
editing 2D images based on text prompts. However, extending these techniques to
edit scenes in Neural Radiance Fields (NeRF) is complex, as editing individual
2D frames can result in inconsistencies across multiple views. Our crucial
insight is that a NeRF scene's geometry can serve as a bridge to integrate
these 2D edits. Utilizing this geometry, we employ a depth-conditioned
ControlNet to enhance the coherence of each 2D image modification. Moreover, we
introduce an inpainting approach that leverages the depth information of NeRF
scenes to distribute 2D edits across different images, ensuring robustness
against errors and resampling challenges. Our results reveal that this
methodology achieves more consistent, lifelike, and detailed edits than
existing leading methods for text-driven NeRF scene editing.