FaceCLIPNeRF: Текст-управляемое 3D-манипулирование лицом с использованием деформируемых нейронных полей излучения
FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields
July 21, 2023
Авторы: Sungwon Hwang, Junha Hyung, Daejin Kim, Min-Jung Kim, Jaegul Choo
cs.AI
Аннотация
Последние достижения в области нейронных полей излучения (NeRF) позволили добиться высокоточной реконструкции 3D-лиц и синтеза новых ракурсов, что сделало их манипуляцию важной задачей в области 3D-видения. Однако существующие методы манипуляции требуют значительных усилий со стороны человека, таких как предоставление пользователем семантической маски и ручной поиск атрибутов, что не подходит для неопытных пользователей. Вместо этого наш подход разработан для манипуляции лицом, реконструированным с помощью NeRF, с использованием всего одного текста. Для этого мы сначала обучаем манипулятор сцены — деформируемый NeRF, зависящий от латентного кода, — на динамической сцене, чтобы управлять деформацией лица с помощью этого кода. Однако представление деформации сцены с помощью одного латентного кода не подходит для композиции локальных деформаций, наблюдаемых в разных случаях. Поэтому наш предложенный позиционно-условный композитор якорей (PAC) учится представлять измененную сцену с помощью пространственно варьирующихся латентных кодов. Их визуализация с помощью манипулятора сцены затем оптимизируется для достижения высокой косинусной схожести с целевым текстом в пространстве встраиваний CLIP, что позволяет осуществлять текстовую манипуляцию. Насколько нам известно, наш подход является первым, который решает задачу текстовой манипуляции лицом, реконструированным с помощью NeRF. Многочисленные результаты, сравнения и исследования демонстрируют эффективность нашего подхода.
English
As recent advances in Neural Radiance Fields (NeRF) have enabled
high-fidelity 3D face reconstruction and novel view synthesis, its manipulation
also became an essential task in 3D vision. However, existing manipulation
methods require extensive human labor, such as a user-provided semantic mask
and manual attribute search unsuitable for non-expert users. Instead, our
approach is designed to require a single text to manipulate a face
reconstructed with NeRF. To do so, we first train a scene manipulator, a latent
code-conditional deformable NeRF, over a dynamic scene to control a face
deformation using the latent code. However, representing a scene deformation
with a single latent code is unfavorable for compositing local deformations
observed in different instances. As so, our proposed Position-conditional
Anchor Compositor (PAC) learns to represent a manipulated scene with spatially
varying latent codes. Their renderings with the scene manipulator are then
optimized to yield high cosine similarity to a target text in CLIP embedding
space for text-driven manipulation. To the best of our knowledge, our approach
is the first to address the text-driven manipulation of a face reconstructed
with NeRF. Extensive results, comparisons, and ablation studies demonstrate the
effectiveness of our approach.