Text2Control3D: Управляемая генерация 3D-аватаров в полях нейронного излучения с использованием геометрически-ориентированной диффузионной модели текст-в-изображение
Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model
September 7, 2023
Авторы: Sungwon Hwang, Junha Hyung, Jaegul Choo
cs.AI
Аннотация
Недавние достижения в области диффузионных моделей, такие как ControlNet, позволили добиться геометрически управляемого и высококачественного преобразования текста в изображение. Однако ни одна из этих моделей не решает задачу добавления подобной управляемости к генерации 3D-моделей из текста. В ответ на это мы предлагаем Text2Control3D — метод управляемой генерации 3D-аватаров из текста, где мимика лица контролируется на основе монохромного видео, снятого с ручной камеры. Основная стратегия заключается в построении 3D-аватара в рамках Neural Radiance Fields (NeRF), оптимизированного с использованием набора управляемых изображений, учитывающих ракурс, которые мы генерируем с помощью ControlNet. Входным условием для ControlNet служит карта глубины, извлеченная из входного видео. При генерации изображений, учитывающих ракурс, мы используем кросс-референсное внимание для внедрения точно контролируемой мимики и внешнего вида через механизм кросс-внимания. Кроме того, мы применяем низкочастотную фильтрацию латентного пространства Гаусса диффузионной модели, чтобы устранить проблему текстуры, не зависящей от ракурса, которую мы выявили в ходе эмпирического анализа. Эта проблема заключается в том, что изображения, учитывающие ракурс, содержат идентичные текстуры на одинаковых позициях пикселей, что неприемлемо для 3D. Наконец, для обучения NeRF на изображениях, которые учитывают ракурс, но не строго согласованы геометрически, наш подход рассматривает геометрические вариации для каждого изображения как деформацию относительно общего 3D-канонического пространства. В результате мы строим 3D-аватар в каноническом пространстве деформируемого NeRF, обучая набор деформаций для каждого изображения через таблицу полей деформации. Мы демонстрируем эмпирические результаты и обсуждаем эффективность нашего метода.
English
Recent advances in diffusion models such as ControlNet have enabled
geometrically controllable, high-fidelity text-to-image generation. However,
none of them addresses the question of adding such controllability to
text-to-3D generation. In response, we propose Text2Control3D, a controllable
text-to-3D avatar generation method whose facial expression is controllable
given a monocular video casually captured with hand-held camera. Our main
strategy is to construct the 3D avatar in Neural Radiance Fields (NeRF)
optimized with a set of controlled viewpoint-aware images that we generate from
ControlNet, whose condition input is the depth map extracted from the input
video. When generating the viewpoint-aware images, we utilize cross-reference
attention to inject well-controlled, referential facial expression and
appearance via cross attention. We also conduct low-pass filtering of Gaussian
latent of the diffusion model in order to ameliorate the viewpoint-agnostic
texture problem we observed from our empirical analysis, where the
viewpoint-aware images contain identical textures on identical pixel positions
that are incomprehensible in 3D. Finally, to train NeRF with the images that
are viewpoint-aware yet are not strictly consistent in geometry, our approach
considers per-image geometric variation as a view of deformation from a shared
3D canonical space. Consequently, we construct the 3D avatar in a canonical
space of deformable NeRF by learning a set of per-image deformation via
deformation field table. We demonstrate the empirical results and discuss the
effectiveness of our method.