Text2Control3D: Steuerbare 3D-Avatargenerierung in Neural Radiance Fields unter Verwendung eines geometriegeleiteten Text-zu-Bild-Diffusionsmodells
Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model
September 7, 2023
Autoren: Sungwon Hwang, Junha Hyung, Jaegul Choo
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Diffusionsmodellen wie ControlNet haben eine geometrisch steuerbare, hochwertige Text-zu-Bild-Generierung ermöglicht. Allerdings hat bisher keines dieser Modelle die Frage behandelt, wie eine solche Steuerbarkeit auf die Text-zu-3D-Generierung übertragen werden kann. Als Antwort darauf schlagen wir Text2Control3D vor, eine steuerbare Methode zur Generierung von 3D-Avataren aus Text, deren Gesichtsausdrücke basierend auf einem mit einer Handkamera aufgenommenen monokularen Video kontrolliert werden können. Unsere Hauptstrategie besteht darin, den 3D-Avatar in Neural Radiance Fields (NeRF) zu konstruieren, die mit einer Reihe von steuerbaren, blickpunktabhängigen Bildern optimiert werden, die wir aus ControlNet generieren. Als Eingabe für die Steuerung dient dabei die Tiefenkarte, die aus dem Eingabevideo extrahiert wird. Bei der Generierung der blickpunktabhängigen Bilder nutzen wir Cross-Reference-Attention, um gut kontrollierte, referenzielle Gesichtsausdrücke und das Erscheinungsbild über Cross-Attention einzubringen. Zudem führen wir eine Tiefpassfilterung des Gaußschen latenten Raums des Diffusionsmodells durch, um das Problem der blickpunktunabhängigen Textur zu mildern, das wir in unserer empirischen Analyse beobachtet haben, bei der die blickpunktabhängigen Bilder identische Texturen an identischen Pixelpositionen aufweisen, die in 3D nicht nachvollziehbar sind. Schließlich berücksichtigt unser Ansatz, um NeRF mit Bildern zu trainieren, die blickpunktabhängig sind, aber nicht streng geometrisch konsistent, die geometrische Variation pro Bild als eine Ansicht der Verformung aus einem gemeinsamen 3D-Kanonischen Raum. Folglich konstruieren wir den 3D-Avatar in einem kanonischen Raum eines deformierbaren NeRF, indem wir eine Reihe von Bild-spezifischen Verformungen über eine Verformungsfeldtabelle lernen. Wir präsentieren die empirischen Ergebnisse und diskutieren die Wirksamkeit unserer Methode.
English
Recent advances in diffusion models such as ControlNet have enabled
geometrically controllable, high-fidelity text-to-image generation. However,
none of them addresses the question of adding such controllability to
text-to-3D generation. In response, we propose Text2Control3D, a controllable
text-to-3D avatar generation method whose facial expression is controllable
given a monocular video casually captured with hand-held camera. Our main
strategy is to construct the 3D avatar in Neural Radiance Fields (NeRF)
optimized with a set of controlled viewpoint-aware images that we generate from
ControlNet, whose condition input is the depth map extracted from the input
video. When generating the viewpoint-aware images, we utilize cross-reference
attention to inject well-controlled, referential facial expression and
appearance via cross attention. We also conduct low-pass filtering of Gaussian
latent of the diffusion model in order to ameliorate the viewpoint-agnostic
texture problem we observed from our empirical analysis, where the
viewpoint-aware images contain identical textures on identical pixel positions
that are incomprehensible in 3D. Finally, to train NeRF with the images that
are viewpoint-aware yet are not strictly consistent in geometry, our approach
considers per-image geometric variation as a view of deformation from a shared
3D canonical space. Consequently, we construct the 3D avatar in a canonical
space of deformable NeRF by learning a set of per-image deformation via
deformation field table. We demonstrate the empirical results and discuss the
effectiveness of our method.