Personnalisez votre NeRF : Édition adaptative de scènes 3D pilotée par la source via un entraînement itératif local-global
Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training
December 4, 2023
Auteurs: Runze He, Shaofei Huang, Xuecheng Nie, Tianrui Hui, Luoqi Liu, Jiao Dai, Jizhong Han, Guanbin Li, Si Liu
cs.AI
Résumé
Dans cet article, nous abordons la tâche d'édition adaptative de scènes 3D pilotée par une source en proposant un modèle CustomNeRF qui unifie une description textuelle ou une image de référence comme prompt d'édition. Cependant, obtenir des résultats d'édition conformes au prompt n'est pas trivial, car deux défis majeurs se posent : l'édition précise des régions de premier plan uniquement et la cohérence multi-vues à partir d'une image de référence mono-vue. Pour relever le premier défi, nous proposons un schéma d'apprentissage itératif Local-Global (LGIE) qui alterne entre l'édition des régions de premier plan et l'édition de l'image entière, visant à manipuler uniquement le premier plan tout en préservant l'arrière-plan. Pour le second défi, nous concevons également une régularisation guidée par classe qui exploite les a priori de classe au sein du modèle de génération pour atténuer le problème d'incohérence entre les différentes vues dans l'édition pilotée par image. Des expériences approfondies montrent que notre CustomNeRF produit des résultats d'édition précis dans diverses scènes réelles, tant pour les paramètres pilotés par texte que par image.
English
In this paper, we target the adaptive source driven 3D scene editing task by
proposing a CustomNeRF model that unifies a text description or a reference
image as the editing prompt. However, obtaining desired editing results
conformed with the editing prompt is nontrivial since there exist two
significant challenges, including accurate editing of only foreground regions
and multi-view consistency given a single-view reference image. To tackle the
first challenge, we propose a Local-Global Iterative Editing (LGIE) training
scheme that alternates between foreground region editing and full-image
editing, aimed at foreground-only manipulation while preserving the background.
For the second challenge, we also design a class-guided regularization that
exploits class priors within the generation model to alleviate the
inconsistency problem among different views in image-driven editing. Extensive
experiments show that our CustomNeRF produces precise editing results under
various real scenes for both text- and image-driven settings.