Text2Control3D: Bestuurbare 3D Avatar-generatie in Neural Radiance Velden met behulp van een Geometrie-Gestuurd Text-to-Image Diffusiemodel
Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model
September 7, 2023
Auteurs: Sungwon Hwang, Junha Hyung, Jaegul Choo
cs.AI
Samenvatting
Recente vooruitgang in diffusiemodellen zoals ControlNet heeft geometrisch bestuurbare, hoogwaardige tekst-naar-beeldgeneratie mogelijk gemaakt. Geen van deze modellen behandelt echter de vraag hoe dergelijke bestuurbaarheid aan tekst-naar-3D-generatie kan worden toegevoegd. Als antwoord hierop stellen wij Text2Control3D voor, een bestuurbare tekst-naar-3D-avatargeneratiemethode waarbij de gezichtsuitdrukking bestuurbaar is op basis van een monovideo die informeel met een handcamera is vastgelegd. Onze hoofdstrategie bestaat uit het construeren van de 3D-avatar in Neural Radiance Fields (NeRF) die wordt geoptimaliseerd met een set van bestuurde gezichtspuntbewuste afbeeldingen die we genereren vanuit ControlNet, waarvan de conditie-invoer de dieptekaart is die uit de invoervideo is geëxtraheerd. Bij het genereren van de gezichtspuntbewuste afbeeldingen maken we gebruik van kruisverwijzingsaandacht om goed bestuurde, referentiële gezichtsuitdrukkingen en uiterlijk in te brengen via kruisaandacht. We passen ook een laagdoorlaatfilter toe op de Gaussiaanse latent van het diffusiemodel om het gezichtspuntagnostische textuurprobleem dat we in onze empirische analyse hebben waargenomen te verhelpen, waarbij de gezichtspuntbewuste afbeeldingen identieke texturen op identieke pixelposities bevatten die in 3D onbegrijpelijk zijn. Tot slot, om NeRF te trainen met afbeeldingen die gezichtspuntbewust zijn maar niet strikt consistent in geometrie, beschouwt onze aanpak geometrische variatie per afbeelding als een weergave van vervorming vanuit een gedeelde 3D-canonieke ruimte. Hierdoor construeren we de 3D-avatar in een canonieke ruimte van vervormbare NeRF door een set van vervormingen per afbeelding te leren via een vervormingsveldtable. We demonstreren de empirische resultaten en bespreken de effectiviteit van onze methode.
English
Recent advances in diffusion models such as ControlNet have enabled
geometrically controllable, high-fidelity text-to-image generation. However,
none of them addresses the question of adding such controllability to
text-to-3D generation. In response, we propose Text2Control3D, a controllable
text-to-3D avatar generation method whose facial expression is controllable
given a monocular video casually captured with hand-held camera. Our main
strategy is to construct the 3D avatar in Neural Radiance Fields (NeRF)
optimized with a set of controlled viewpoint-aware images that we generate from
ControlNet, whose condition input is the depth map extracted from the input
video. When generating the viewpoint-aware images, we utilize cross-reference
attention to inject well-controlled, referential facial expression and
appearance via cross attention. We also conduct low-pass filtering of Gaussian
latent of the diffusion model in order to ameliorate the viewpoint-agnostic
texture problem we observed from our empirical analysis, where the
viewpoint-aware images contain identical textures on identical pixel positions
that are incomprehensible in 3D. Finally, to train NeRF with the images that
are viewpoint-aware yet are not strictly consistent in geometry, our approach
considers per-image geometric variation as a view of deformation from a shared
3D canonical space. Consequently, we construct the 3D avatar in a canonical
space of deformable NeRF by learning a set of per-image deformation via
deformation field table. We demonstrate the empirical results and discuss the
effectiveness of our method.