ChatPaper.aiChatPaper

Text2Control3D : Génération contrôlée d'avatars 3D dans les champs de rayonnement neural à l'aide d'un modèle de diffusion texte-image guidé par la géométrie

Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model

September 7, 2023
Auteurs: Sungwon Hwang, Junha Hyung, Jaegul Choo
cs.AI

Résumé

Les récents progrès des modèles de diffusion tels que ControlNet ont permis une génération d'images à partir de texte à haute fidélité et géométriquement contrôlable. Cependant, aucun de ces modèles n'aborde la question de l'ajout d'une telle contrôlabilité à la génération de texte vers la 3D. En réponse, nous proposons Text2Control3D, une méthode de génération d'avatars 3D à partir de texte dont les expressions faciales sont contrôlables à partir d'une vidéo monoscopique capturée de manière informelle avec une caméra portative. Notre stratégie principale consiste à construire l'avatar 3D dans des Champs de Radiance Neuronaux (NeRF) optimisés avec un ensemble d'images contrôlées et dépendantes du point de vue que nous générons à partir de ControlNet, dont l'entrée conditionnelle est la carte de profondeur extraite de la vidéo d'entrée. Lors de la génération des images dépendantes du point de vue, nous utilisons une attention croisée pour injecter des expressions faciales et des apparences bien contrôlées et référentielles via une attention croisée. Nous effectuons également un filtrage passe-bas du latent gaussien du modèle de diffusion afin d'améliorer le problème de texture indépendant du point de vue que nous avons observé dans notre analyse empirique, où les images dépendantes du point de vue contiennent des textures identiques sur des positions de pixels identiques qui sont incompréhensibles en 3D. Enfin, pour entraîner NeRF avec des images qui sont dépendantes du point de vue mais qui ne sont pas strictement cohérentes en géométrie, notre approche considère la variation géométrique par image comme une vue de déformation à partir d'un espace canonique 3D partagé. Par conséquent, nous construisons l'avatar 3D dans un espace canonique de NeRF déformable en apprenant un ensemble de déformations par image via une table de champ de déformation. Nous démontrons les résultats empiriques et discutons de l'efficacité de notre méthode.
English
Recent advances in diffusion models such as ControlNet have enabled geometrically controllable, high-fidelity text-to-image generation. However, none of them addresses the question of adding such controllability to text-to-3D generation. In response, we propose Text2Control3D, a controllable text-to-3D avatar generation method whose facial expression is controllable given a monocular video casually captured with hand-held camera. Our main strategy is to construct the 3D avatar in Neural Radiance Fields (NeRF) optimized with a set of controlled viewpoint-aware images that we generate from ControlNet, whose condition input is the depth map extracted from the input video. When generating the viewpoint-aware images, we utilize cross-reference attention to inject well-controlled, referential facial expression and appearance via cross attention. We also conduct low-pass filtering of Gaussian latent of the diffusion model in order to ameliorate the viewpoint-agnostic texture problem we observed from our empirical analysis, where the viewpoint-aware images contain identical textures on identical pixel positions that are incomprehensible in 3D. Finally, to train NeRF with the images that are viewpoint-aware yet are not strictly consistent in geometry, our approach considers per-image geometric variation as a view of deformation from a shared 3D canonical space. Consequently, we construct the 3D avatar in a canonical space of deformable NeRF by learning a set of per-image deformation via deformation field table. We demonstrate the empirical results and discuss the effectiveness of our method.
PDF120December 15, 2024