ZeroAvatar: Генерация 3D-аватара с нулевым обучением на основе одного изображения
ZeroAvatar: Zero-shot 3D Avatar Generation from a Single Image
May 25, 2023
Авторы: Zhenzhen Weng, Zeyu Wang, Serena Yeung
cs.AI
Аннотация
Последние достижения в области генерации изображений по тексту позволили добиться значительного прогресса в генерации 3D-форм в условиях нулевого сэмплинга. Это стало возможным благодаря методике, называемой дистилляцией оценок, которая использует предварительно обученные диффузионные модели для генерации изображений по тексту с целью оптимизации параметров 3D-нейронного представления, например, Neural Radiance Field (NeRF). Несмотря на обнадеживающие результаты, существующие методы часто не способны сохранять геометрию сложных форм, таких как человеческое тело. Для решения этой проблемы мы представляем ZeroAvatar — метод, который вводит явный приоритет 3D-модели человеческого тела в процесс оптимизации. В частности, мы сначала оцениваем и уточняем параметры параметрической модели человеческого тела на основе одного изображения. Затем в процессе оптимизации мы используем позированную параметрическую модель в качестве дополнительного геометрического ограничения для регуляризации диффузионной модели, а также базового поля плотности. Наконец, мы предлагаем термин регуляризации текстуры, основанный на UV-координатах, чтобы дополнительно направлять завершение текстуры на невидимых частях тела. Мы демонстрируем, что ZeroAvatar значительно повышает устойчивость и 3D-согласованность оптимизации при генерации 3D-аватаров на основе изображений, превосходя существующие методы нулевого сэмплинга для преобразования изображений в 3D.
English
Recent advancements in text-to-image generation have enabled significant
progress in zero-shot 3D shape generation. This is achieved by score
distillation, a methodology that uses pre-trained text-to-image diffusion
models to optimize the parameters of a 3D neural presentation, e.g. Neural
Radiance Field (NeRF). While showing promising results, existing methods are
often not able to preserve the geometry of complex shapes, such as human
bodies. To address this challenge, we present ZeroAvatar, a method that
introduces the explicit 3D human body prior to the optimization process.
Specifically, we first estimate and refine the parameters of a parametric human
body from a single image. Then during optimization, we use the posed parametric
body as additional geometry constraint to regularize the diffusion model as
well as the underlying density field. Lastly, we propose a UV-guided texture
regularization term to further guide the completion of texture on invisible
body parts. We show that ZeroAvatar significantly enhances the robustness and
3D consistency of optimization-based image-to-3D avatar generation,
outperforming existing zero-shot image-to-3D methods.