AlteredAvatar: 빠른 스타일 적응을 통한 동적 3D 아바타 스타일링
AlteredAvatar: Stylizing Dynamic 3D Avatars with Fast Style Adaptation
May 30, 2023
저자: Thu Nguyen-Phuoc, Gabriel Schwartz, Yuting Ye, Stephen Lombardi, Lei Xiao
cs.AI
초록
본 논문은 새로운 스타일의 임의의 텍스트 설명에 빠르게 적응할 수 있는 동적 3D 아바타 방법을 제시한다. 기존 아바타 스타일화 접근법 중 직접 최적화 방법은 임의의 스타일에 대해 우수한 결과를 생성할 수 있지만, 속도가 매우 느리다는 단점이 있다. 또한, 새로운 입력마다 최적화 과정을 처음부터 다시 수행해야 한다. 대규모 스타일 이미지 데이터셋으로 훈련된 피드포워드 네트워크를 사용한 빠른 근사 방법은 새로운 입력에 대해 신속하게 결과를 생성할 수 있지만, 새로운 스타일로의 일반화가 잘 되지 않고 품질 면에서도 부족한 경향이 있다. 따라서 우리는 메타러닝 프레임워크를 사용하여 이 두 접근법을 결합한 새로운 방법인 AlteredAvatar를 연구한다. 내부 루프에서는 모델이 단일 타겟 스타일과 잘 일치하도록 최적화하는 방법을 학습하고, 외부 루프에서는 모델이 다양한 스타일 간에 효율적으로 스타일화하는 방법을 학습한다. 훈련 후, AlteredAvatar는 텍스트, 참조 이미지 또는 둘의 조합으로 제공될 수 있는 새로운 스타일에 대해 소수의 업데이트 단계 내에서 빠르게 적응할 수 있는 초기화를 학습한다. 우리는 AlteredAvatar가 속도, 유연성 및 품질 간의 좋은 균형을 달성할 수 있음을 보여주며, 다양한 새로운 시점과 얼굴 표정에서 일관성을 유지한다.
English
This paper presents a method that can quickly adapt dynamic 3D avatars to
arbitrary text descriptions of novel styles. Among existing approaches for
avatar stylization, direct optimization methods can produce excellent results
for arbitrary styles but they are unpleasantly slow. Furthermore, they require
redoing the optimization process from scratch for every new input. Fast
approximation methods using feed-forward networks trained on a large dataset of
style images can generate results for new inputs quickly, but tend not to
generalize well to novel styles and fall short in quality. We therefore
investigate a new approach, AlteredAvatar, that combines those two approaches
using the meta-learning framework. In the inner loop, the model learns to
optimize to match a single target style well; while in the outer loop, the
model learns to stylize efficiently across many styles. After training,
AlteredAvatar learns an initialization that can quickly adapt within a small
number of update steps to a novel style, which can be given using texts, a
reference image, or a combination of both. We show that AlteredAvatar can
achieve a good balance between speed, flexibility and quality, while
maintaining consistency across a wide range of novel views and facial
expressions.