Passen Sie Ihr NeRF an: Adaptives, quellgetriebenes 3D-Szenen-Editing durch lokales-globales iteratives Training
Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training
December 4, 2023
Autoren: Runze He, Shaofei Huang, Xuecheng Nie, Tianrui Hui, Luoqi Liu, Jiao Dai, Jizhong Han, Guanbin Li, Si Liu
cs.AI
Zusammenfassung
In diesem Artikel widmen wir uns der Aufgabe des adaptiven, quellgetriebenen 3D-Szenen-Editing, indem wir ein CustomNeRF-Modell vorschlagen, das eine Textbeschreibung oder ein Referenzbild als Bearbeitungsaufforderung vereinheitlicht. Es ist jedoch nicht trivial, gewünschte Bearbeitungsergebnisse zu erzielen, die mit der Bearbeitungsaufforderung übereinstimmen, da zwei wesentliche Herausforderungen bestehen: die präzise Bearbeitung ausschließlich der Vordergrundregionen und die Multi-View-Konsistenz bei einem Single-View-Referenzbild. Um die erste Herausforderung zu bewältigen, schlagen wir ein Local-Global Iterative Editing (LGIE)-Trainingsschema vor, das zwischen der Bearbeitung der Vordergrundregion und der Bearbeitung des gesamten Bildes wechselt, um eine ausschließliche Manipulation des Vordergrunds bei gleichzeitiger Erhaltung des Hintergrunds zu erreichen. Für die zweite Herausforderung entwerfen wir außerdem eine klassenorientierte Regularisierung, die Klassenprioritäten innerhalb des Generierungsmodells nutzt, um das Inkonsistenzproblem zwischen verschiedenen Ansichten beim bildgestützten Editing zu mildern. Umfangreiche Experimente zeigen, dass unser CustomNeRF präzise Bearbeitungsergebnisse in verschiedenen realen Szenarien sowohl für text- als auch bildgestützte Einstellungen liefert.
English
In this paper, we target the adaptive source driven 3D scene editing task by
proposing a CustomNeRF model that unifies a text description or a reference
image as the editing prompt. However, obtaining desired editing results
conformed with the editing prompt is nontrivial since there exist two
significant challenges, including accurate editing of only foreground regions
and multi-view consistency given a single-view reference image. To tackle the
first challenge, we propose a Local-Global Iterative Editing (LGIE) training
scheme that alternates between foreground region editing and full-image
editing, aimed at foreground-only manipulation while preserving the background.
For the second challenge, we also design a class-guided regularization that
exploits class priors within the generation model to alleviate the
inconsistency problem among different views in image-driven editing. Extensive
experiments show that our CustomNeRF produces precise editing results under
various real scenes for both text- and image-driven settings.