ChatPaper.aiChatPaper

AlteredAvatar: 빠른 스타일 적응을 통한 동적 3D 아바타 스타일링

AlteredAvatar: Stylizing Dynamic 3D Avatars with Fast Style Adaptation

May 30, 2023
저자: Thu Nguyen-Phuoc, Gabriel Schwartz, Yuting Ye, Stephen Lombardi, Lei Xiao
cs.AI

초록

본 논문은 새로운 스타일의 임의의 텍스트 설명에 빠르게 적응할 수 있는 동적 3D 아바타 방법을 제시한다. 기존 아바타 스타일화 접근법 중 직접 최적화 방법은 임의의 스타일에 대해 우수한 결과를 생성할 수 있지만, 속도가 매우 느리다는 단점이 있다. 또한, 새로운 입력마다 최적화 과정을 처음부터 다시 수행해야 한다. 대규모 스타일 이미지 데이터셋으로 훈련된 피드포워드 네트워크를 사용한 빠른 근사 방법은 새로운 입력에 대해 신속하게 결과를 생성할 수 있지만, 새로운 스타일로의 일반화가 잘 되지 않고 품질 면에서도 부족한 경향이 있다. 따라서 우리는 메타러닝 프레임워크를 사용하여 이 두 접근법을 결합한 새로운 방법인 AlteredAvatar를 연구한다. 내부 루프에서는 모델이 단일 타겟 스타일과 잘 일치하도록 최적화하는 방법을 학습하고, 외부 루프에서는 모델이 다양한 스타일 간에 효율적으로 스타일화하는 방법을 학습한다. 훈련 후, AlteredAvatar는 텍스트, 참조 이미지 또는 둘의 조합으로 제공될 수 있는 새로운 스타일에 대해 소수의 업데이트 단계 내에서 빠르게 적응할 수 있는 초기화를 학습한다. 우리는 AlteredAvatar가 속도, 유연성 및 품질 간의 좋은 균형을 달성할 수 있음을 보여주며, 다양한 새로운 시점과 얼굴 표정에서 일관성을 유지한다.
English
This paper presents a method that can quickly adapt dynamic 3D avatars to arbitrary text descriptions of novel styles. Among existing approaches for avatar stylization, direct optimization methods can produce excellent results for arbitrary styles but they are unpleasantly slow. Furthermore, they require redoing the optimization process from scratch for every new input. Fast approximation methods using feed-forward networks trained on a large dataset of style images can generate results for new inputs quickly, but tend not to generalize well to novel styles and fall short in quality. We therefore investigate a new approach, AlteredAvatar, that combines those two approaches using the meta-learning framework. In the inner loop, the model learns to optimize to match a single target style well; while in the outer loop, the model learns to stylize efficiently across many styles. After training, AlteredAvatar learns an initialization that can quickly adapt within a small number of update steps to a novel style, which can be given using texts, a reference image, or a combination of both. We show that AlteredAvatar can achieve a good balance between speed, flexibility and quality, while maintaining consistency across a wide range of novel views and facial expressions.
PDF20December 15, 2024