FaceCLIPNeRF: Tekstgestuurde 3D-gezichtsmanipulatie met behulp van vervormbare neurale stralingsvelden

Samenvatting

Met de recente vooruitgang in Neural Radiance Fields (NeRF) die hoogwaardige 3D-gezichtsreconstructie en synthese van nieuwe gezichtspunten mogelijk hebben gemaakt, is ook de manipulatie ervan een essentiële taak geworden in 3D-visie. Bestaande manipulatiemethoden vereisen echter veel menselijke arbeid, zoals een door de gebruiker aangegeven semantisch masker en handmatige zoekopdrachten naar attributen, wat niet geschikt is voor niet-deskundige gebruikers. In plaats daarvan is onze aanpak ontworpen om slechts één tekst te vereisen om een met NeRF gereconstrueerd gezicht te manipuleren. Hiervoor trainen we eerst een scenemanipulator, een latent code-conditioneel vervormbaar NeRF, over een dynamische scène om een gezichtsvervorming te besturen met behulp van de latent code. Het representeren van een scènevervorming met een enkele latent code is echter ongunstig voor het samenstellen van lokale vervormingen die in verschillende instanties worden waargenomen. Daarom leert onze voorgestelde Position-conditional Anchor Compositor (PAC) om een gemanipuleerde scène te representeren met ruimtelijk variërende latent codes. Hun weergaven met de scenemanipulator worden vervolgens geoptimaliseerd om een hoge cosinusgelijkenis te bereiken met een doeltekst in de CLIP-embeddingruimte voor tekstgestuurde manipulatie. Voor zover wij weten, is onze aanpak de eerste die de tekstgestuurde manipulatie van een met NeRF gereconstrueerd gezicht aanpakt. Uitgebreide resultaten, vergelijkingen en ablatiestudies demonstreren de effectiviteit van onze aanpak.

English

As recent advances in Neural Radiance Fields (NeRF) have enabled high-fidelity 3D face reconstruction and novel view synthesis, its manipulation also became an essential task in 3D vision. However, existing manipulation methods require extensive human labor, such as a user-provided semantic mask and manual attribute search unsuitable for non-expert users. Instead, our approach is designed to require a single text to manipulate a face reconstructed with NeRF. To do so, we first train a scene manipulator, a latent code-conditional deformable NeRF, over a dynamic scene to control a face deformation using the latent code. However, representing a scene deformation with a single latent code is unfavorable for compositing local deformations observed in different instances. As so, our proposed Position-conditional Anchor Compositor (PAC) learns to represent a manipulated scene with spatially varying latent codes. Their renderings with the scene manipulator are then optimized to yield high cosine similarity to a target text in CLIP embedding space for text-driven manipulation. To the best of our knowledge, our approach is the first to address the text-driven manipulation of a face reconstructed with NeRF. Extensive results, comparisons, and ablation studies demonstrate the effectiveness of our approach.

FaceCLIPNeRF: Tekstgestuurde 3D-gezichtsmanipulatie met behulp van vervormbare neurale stralingsvelden

FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields

Samenvatting

Support