AlteredAvatar: Stilisierung dynamischer 3D-Avatare mit schneller Stilanpassung
AlteredAvatar: Stylizing Dynamic 3D Avatars with Fast Style Adaptation
May 30, 2023
Autoren: Thu Nguyen-Phuoc, Gabriel Schwartz, Yuting Ye, Stephen Lombardi, Lei Xiao
cs.AI
Zusammenfassung
Dieses Papier stellt eine Methode vor, die dynamische 3D-Avatare schnell an beliebige Textbeschreibungen neuer Stile anpassen kann. Unter den bestehenden Ansätzen zur Avatar-Stylisierung können direkte Optimierungsmethoden hervorragende Ergebnisse für beliebige Stile erzielen, sind jedoch unangenehm langsam. Darüber hinaus erfordern sie, den Optimierungsprozess für jede neue Eingabe von Grund auf neu durchzuführen. Schnelle Approximationsmethoden, die Feedforward-Netzwerke verwenden, die auf einem großen Datensatz von Stilbildern trainiert wurden, können schnell Ergebnisse für neue Eingaben generieren, tendieren jedoch dazu, sich nicht gut auf neue Stile zu verallgemeinern und fallen in der Qualität zurück. Daher untersuchen wir einen neuen Ansatz, AlteredAvatar, der diese beiden Ansätze mithilfe des Meta-Learning-Frameworks kombiniert. In der inneren Schleife lernt das Modell, sich zu optimieren, um einen einzelnen Zielstil gut zu treffen, während es in der äußeren Schleife lernt, effizient über viele Stile hinweg zu stylisieren. Nach dem Training lernt AlteredAvatar eine Initialisierung, die sich innerhalb einer kleinen Anzahl von Aktualisierungsschritten schnell an einen neuen Stil anpassen kann, der durch Texte, ein Referenzbild oder eine Kombination aus beidem gegeben werden kann. Wir zeigen, dass AlteredAvatar eine gute Balance zwischen Geschwindigkeit, Flexibilität und Qualität erreichen kann, während es die Konsistenz über eine breite Palette neuer Ansichten und Gesichtsausdrücke beibehält.
English
This paper presents a method that can quickly adapt dynamic 3D avatars to
arbitrary text descriptions of novel styles. Among existing approaches for
avatar stylization, direct optimization methods can produce excellent results
for arbitrary styles but they are unpleasantly slow. Furthermore, they require
redoing the optimization process from scratch for every new input. Fast
approximation methods using feed-forward networks trained on a large dataset of
style images can generate results for new inputs quickly, but tend not to
generalize well to novel styles and fall short in quality. We therefore
investigate a new approach, AlteredAvatar, that combines those two approaches
using the meta-learning framework. In the inner loop, the model learns to
optimize to match a single target style well; while in the outer loop, the
model learns to stylize efficiently across many styles. After training,
AlteredAvatar learns an initialization that can quickly adapt within a small
number of update steps to a novel style, which can be given using texts, a
reference image, or a combination of both. We show that AlteredAvatar can
achieve a good balance between speed, flexibility and quality, while
maintaining consistency across a wide range of novel views and facial
expressions.