DATENeRF : Édition textuelle consciente de la profondeur pour les NeRFs
DATENeRF: Depth-Aware Text-based Editing of NeRFs
April 6, 2024
Auteurs: Sara Rojas, Julien Philip, Kai Zhang, Sai Bi, Fujun Luan, Bernard Ghanem, Kalyan Sunkavall
cs.AI
Résumé
Les récentes avancées dans les modèles de diffusion ont démontré une remarquable capacité à éditer des images 2D à partir de prompts textuels. Cependant, l'extension de ces techniques pour éditer des scènes dans les champs de radiance neuronaux (NeRF) est complexe, car la modification d'images 2D individuelles peut entraîner des incohérences entre plusieurs vues. Notre idée clé est que la géométrie d'une scène NeRF peut servir de pont pour intégrer ces modifications 2D. En exploitant cette géométrie, nous utilisons un ControlNet conditionné par la profondeur pour améliorer la cohérence de chaque modification d'image 2D. De plus, nous introduisons une approche d'inpainting qui s'appuie sur les informations de profondeur des scènes NeRF pour répartir les modifications 2D sur différentes images, garantissant ainsi une robustesse face aux erreurs et aux défis de rééchantillonnage. Nos résultats montrent que cette méthode permet d'obtenir des modifications plus cohérentes, réalistes et détaillées que les principales méthodes existantes pour l'édition de scènes NeRF pilotée par texte.
English
Recent advancements in diffusion models have shown remarkable proficiency in
editing 2D images based on text prompts. However, extending these techniques to
edit scenes in Neural Radiance Fields (NeRF) is complex, as editing individual
2D frames can result in inconsistencies across multiple views. Our crucial
insight is that a NeRF scene's geometry can serve as a bridge to integrate
these 2D edits. Utilizing this geometry, we employ a depth-conditioned
ControlNet to enhance the coherence of each 2D image modification. Moreover, we
introduce an inpainting approach that leverages the depth information of NeRF
scenes to distribute 2D edits across different images, ensuring robustness
against errors and resampling challenges. Our results reveal that this
methodology achieves more consistent, lifelike, and detailed edits than
existing leading methods for text-driven NeRF scene editing.Summary
AI-Generated Summary