FaceCLIPNeRF: 変形可能なニューラルラジアンスフィールドを用いたテキスト駆動型3D顔面操作
FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields
July 21, 2023
著者: Sungwon Hwang, Junha Hyung, Daejin Kim, Min-Jung Kim, Jaegul Choo
cs.AI
要旨
ニューラルラジアンスフィールド(NeRF)の最近の進展により、高精度な3D顔再構成と新規視点合成が可能となり、その操作も3Dビジョンにおける重要な課題となっています。しかし、既存の操作手法は、ユーザー提供のセマンティックマスクや手動属性検索など、非専門家のユーザーには適さない多大な人的労力を必要とします。代わりに、我々のアプローチは、NeRFで再構成された顔を操作するために単一のテキストのみを必要とするように設計されています。これを実現するため、まず、動的シーン上でシーンマニピュレータ(潜在コード条件付き変形可能NeRF)を訓練し、潜在コードを使用して顔の変形を制御します。しかし、単一の潜在コードでシーン変形を表現することは、異なるインスタンスで観察される局所的な変形を合成するには不向きです。そこで、我々が提案する位置条件付きアンカーコンポジタ(PAC)は、空間的に変化する潜在コードで操作されたシーンを表現することを学習します。その後、シーンマニピュレータによるレンダリングは、CLIP埋め込み空間でのターゲットテキストとの高いコサイン類似性を達成するように最適化され、テキスト駆動の操作を実現します。我々の知る限り、このアプローチはNeRFで再構成された顔のテキスト駆動操作に初めて取り組んだものです。広範な結果、比較、およびアブレーションスタディにより、我々のアプローチの有効性が実証されています。
English
As recent advances in Neural Radiance Fields (NeRF) have enabled
high-fidelity 3D face reconstruction and novel view synthesis, its manipulation
also became an essential task in 3D vision. However, existing manipulation
methods require extensive human labor, such as a user-provided semantic mask
and manual attribute search unsuitable for non-expert users. Instead, our
approach is designed to require a single text to manipulate a face
reconstructed with NeRF. To do so, we first train a scene manipulator, a latent
code-conditional deformable NeRF, over a dynamic scene to control a face
deformation using the latent code. However, representing a scene deformation
with a single latent code is unfavorable for compositing local deformations
observed in different instances. As so, our proposed Position-conditional
Anchor Compositor (PAC) learns to represent a manipulated scene with spatially
varying latent codes. Their renderings with the scene manipulator are then
optimized to yield high cosine similarity to a target text in CLIP embedding
space for text-driven manipulation. To the best of our knowledge, our approach
is the first to address the text-driven manipulation of a face reconstructed
with NeRF. Extensive results, comparisons, and ablation studies demonstrate the
effectiveness of our approach.