AlteredAvatar: Estilizando Avatares 3D Dinâmicos com Adaptação Rápida de Estilo
AlteredAvatar: Stylizing Dynamic 3D Avatars with Fast Style Adaptation
May 30, 2023
Autores: Thu Nguyen-Phuoc, Gabriel Schwartz, Yuting Ye, Stephen Lombardi, Lei Xiao
cs.AI
Resumo
Este artigo apresenta um método que pode adaptar rapidamente avatares 3D dinâmicos a descrições textuais arbitrárias de novos estilos. Entre as abordagens existentes para estilização de avatares, métodos de otimização direta podem produzir resultados excelentes para estilos arbitrários, mas são desagradavelmente lentos. Além disso, eles exigem refazer o processo de otimização do zero para cada nova entrada. Métodos de aproximação rápida que utilizam redes feed-forward treinadas em um grande conjunto de dados de imagens de estilo podem gerar resultados para novas entradas rapidamente, mas tendem a não generalizar bem para estilos novos e ficam aquém em qualidade. Portanto, investigamos uma nova abordagem, AlteredAvatar, que combina essas duas abordagens utilizando o framework de meta-aprendizado. No loop interno, o modelo aprende a otimizar para corresponder bem a um único estilo alvo; enquanto no loop externo, o modelo aprende a estilizar de forma eficiente em muitos estilos. Após o treinamento, o AlteredAvatar aprende uma inicialização que pode se adaptar rapidamente, com um pequeno número de passos de atualização, a um novo estilo, que pode ser fornecido por meio de textos, uma imagem de referência ou uma combinação de ambos. Mostramos que o AlteredAvatar pode alcançar um bom equilíbrio entre velocidade, flexibilidade e qualidade, mantendo a consistência em uma ampla gama de novas visualizações e expressões faciais.
English
This paper presents a method that can quickly adapt dynamic 3D avatars to
arbitrary text descriptions of novel styles. Among existing approaches for
avatar stylization, direct optimization methods can produce excellent results
for arbitrary styles but they are unpleasantly slow. Furthermore, they require
redoing the optimization process from scratch for every new input. Fast
approximation methods using feed-forward networks trained on a large dataset of
style images can generate results for new inputs quickly, but tend not to
generalize well to novel styles and fall short in quality. We therefore
investigate a new approach, AlteredAvatar, that combines those two approaches
using the meta-learning framework. In the inner loop, the model learns to
optimize to match a single target style well; while in the outer loop, the
model learns to stylize efficiently across many styles. After training,
AlteredAvatar learns an initialization that can quickly adapt within a small
number of update steps to a novel style, which can be given using texts, a
reference image, or a combination of both. We show that AlteredAvatar can
achieve a good balance between speed, flexibility and quality, while
maintaining consistency across a wide range of novel views and facial
expressions.