AlteredAvatar: Стилизация динамических 3D-аватаров с быстрой адаптацией стиля
AlteredAvatar: Stylizing Dynamic 3D Avatars with Fast Style Adaptation
May 30, 2023
Авторы: Thu Nguyen-Phuoc, Gabriel Schwartz, Yuting Ye, Stephen Lombardi, Lei Xiao
cs.AI
Аннотация
В данной статье представлен метод, позволяющий быстро адаптировать динамические 3D-аватары к произвольным текстовым описаниям новых стилей. Среди существующих подходов к стилизации аватаров методы прямой оптимизации могут давать превосходные результаты для произвольных стилей, но они крайне медленны. Кроме того, они требуют повторного выполнения процесса оптимизации с нуля для каждого нового входного запроса. Быстрые аппроксимационные методы, использующие прямые нейронные сети, обученные на большом наборе данных стилевых изображений, могут быстро генерировать результаты для новых запросов, но они плохо обобщаются на новые стили и уступают по качеству. Поэтому мы исследуем новый подход, AlteredAvatar, который объединяет эти два метода в рамках метаобучения. Во внутреннем цикле модель учится оптимизироваться для соответствия одному целевому стилю, а во внешнем цикле модель учится эффективно стилизовать аватары для множества стилей. После обучения AlteredAvatar осваивает начальную конфигурацию, которая может быстро адаптироваться за небольшое количество шагов обновления к новому стилю, заданному с помощью текста, эталонного изображения или их комбинации. Мы показываем, что AlteredAvatar достигает хорошего баланса между скоростью, гибкостью и качеством, сохраняя согласованность для широкого диапазона новых ракурсов и мимических выражений.
English
This paper presents a method that can quickly adapt dynamic 3D avatars to
arbitrary text descriptions of novel styles. Among existing approaches for
avatar stylization, direct optimization methods can produce excellent results
for arbitrary styles but they are unpleasantly slow. Furthermore, they require
redoing the optimization process from scratch for every new input. Fast
approximation methods using feed-forward networks trained on a large dataset of
style images can generate results for new inputs quickly, but tend not to
generalize well to novel styles and fall short in quality. We therefore
investigate a new approach, AlteredAvatar, that combines those two approaches
using the meta-learning framework. In the inner loop, the model learns to
optimize to match a single target style well; while in the outer loop, the
model learns to stylize efficiently across many styles. After training,
AlteredAvatar learns an initialization that can quickly adapt within a small
number of update steps to a novel style, which can be given using texts, a
reference image, or a combination of both. We show that AlteredAvatar can
achieve a good balance between speed, flexibility and quality, while
maintaining consistency across a wide range of novel views and facial
expressions.