GenCA: Текстоуправляемая генеративная модель для реалистичных и управляемых кодек-аватаров.
GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars
August 24, 2024
Авторы: Keqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz
cs.AI
Аннотация
Фотореалистичные и управляемые трехмерные аватары играют ключевую роль в различных приложениях, таких как виртуальная и смешанная реальность (VR/MR), телеприсутствие, игровые приложения и кинопроизводство. Традиционные методы создания аватаров часто включают в себя трудоемкие процессы сканирования и реконструкции для каждого аватара, что ограничивает их масштабируемость. Более того, эти методы не предоставляют гибкости для создания новых личностей или изменения существующих. С другой стороны, благодаря обучению сильной априорной модели на основе данных, генеративные модели представляют собой многообещающую альтернативу традиционным методам реконструкции, облегчая ограничения по времени как для захвата данных, так и их обработки. Кроме того, генеративные методы позволяют использовать приложения после реконструкции, такие как редактирование и стилизация. Тем не менее, исследования по генерации трехмерных аватаров находятся на начальном этапе, и поэтому текущие методы все еще имеют ограничения, такие как создание статичных аватаров, отсутствие фотореализма, неполные детали лица или ограниченная управляемость. Для решения этой проблемы мы предлагаем генеративную модель, условием для которой является текст, способную генерировать фотореалистичные лицевые аватары различных личностей с более полными деталями, такими как волосы, глаза и внутренняя часть рта, которые можно управлять через мощное непараметрическое латентное пространство выражений. Конкретно, мы интегрируем генеративные и редактирующие возможности моделей латентного диффузии с сильной априорной моделью для управления выражением аватара.
Наша модель способна генерировать и управлять аватарами высокой степени реалистичности, даже теми, которые не входят в распределение. Мы также выделяем ее потенциал для последующих применений, включая редактирование аватаров и реконструкцию аватаров с одного снимка.
English
Photo-realistic and controllable 3D avatars are crucial for various
applications such as virtual and mixed reality (VR/MR), telepresence, gaming,
and film production. Traditional methods for avatar creation often involve
time-consuming scanning and reconstruction processes for each avatar, which
limits their scalability. Furthermore, these methods do not offer the
flexibility to sample new identities or modify existing ones. On the other
hand, by learning a strong prior from data, generative models provide a
promising alternative to traditional reconstruction methods, easing the time
constraints for both data capture and processing. Additionally, generative
methods enable downstream applications beyond reconstruction, such as editing
and stylization. Nonetheless, the research on generative 3D avatars is still in
its infancy, and therefore current methods still have limitations such as
creating static avatars, lacking photo-realism, having incomplete facial
details, or having limited drivability. To address this, we propose a
text-conditioned generative model that can generate photo-realistic facial
avatars of diverse identities, with more complete details like hair, eyes and
mouth interior, and which can be driven through a powerful non-parametric
latent expression space. Specifically, we integrate the generative and editing
capabilities of latent diffusion models with a strong prior model for avatar
expression driving.
Our model can generate and control high-fidelity avatars, even those
out-of-distribution. We also highlight its potential for downstream
applications, including avatar editing and single-shot avatar reconstruction.Summary
AI-Generated Summary