AlteredAvatar: Stilisierung dynamischer 3D-Avatare mit schneller Stilanpassung

Zusammenfassung

Dieses Papier stellt eine Methode vor, die dynamische 3D-Avatare schnell an beliebige Textbeschreibungen neuer Stile anpassen kann. Unter den bestehenden Ansätzen zur Avatar-Stylisierung können direkte Optimierungsmethoden hervorragende Ergebnisse für beliebige Stile erzielen, sind jedoch unangenehm langsam. Darüber hinaus erfordern sie, den Optimierungsprozess für jede neue Eingabe von Grund auf neu durchzuführen. Schnelle Approximationsmethoden, die Feedforward-Netzwerke verwenden, die auf einem großen Datensatz von Stilbildern trainiert wurden, können schnell Ergebnisse für neue Eingaben generieren, tendieren jedoch dazu, sich nicht gut auf neue Stile zu verallgemeinern und fallen in der Qualität zurück. Daher untersuchen wir einen neuen Ansatz, AlteredAvatar, der diese beiden Ansätze mithilfe des Meta-Learning-Frameworks kombiniert. In der inneren Schleife lernt das Modell, sich zu optimieren, um einen einzelnen Zielstil gut zu treffen, während es in der äußeren Schleife lernt, effizient über viele Stile hinweg zu stylisieren. Nach dem Training lernt AlteredAvatar eine Initialisierung, die sich innerhalb einer kleinen Anzahl von Aktualisierungsschritten schnell an einen neuen Stil anpassen kann, der durch Texte, ein Referenzbild oder eine Kombination aus beidem gegeben werden kann. Wir zeigen, dass AlteredAvatar eine gute Balance zwischen Geschwindigkeit, Flexibilität und Qualität erreichen kann, während es die Konsistenz über eine breite Palette neuer Ansichten und Gesichtsausdrücke beibehält.

English

This paper presents a method that can quickly adapt dynamic 3D avatars to arbitrary text descriptions of novel styles. Among existing approaches for avatar stylization, direct optimization methods can produce excellent results for arbitrary styles but they are unpleasantly slow. Furthermore, they require redoing the optimization process from scratch for every new input. Fast approximation methods using feed-forward networks trained on a large dataset of style images can generate results for new inputs quickly, but tend not to generalize well to novel styles and fall short in quality. We therefore investigate a new approach, AlteredAvatar, that combines those two approaches using the meta-learning framework. In the inner loop, the model learns to optimize to match a single target style well; while in the outer loop, the model learns to stylize efficiently across many styles. After training, AlteredAvatar learns an initialization that can quickly adapt within a small number of update steps to a novel style, which can be given using texts, a reference image, or a combination of both. We show that AlteredAvatar can achieve a good balance between speed, flexibility and quality, while maintaining consistency across a wide range of novel views and facial expressions.

AlteredAvatar: Stilisierung dynamischer 3D-Avatare mit schneller Stilanpassung

AlteredAvatar: Stylizing Dynamic 3D Avatars with Fast Style Adaptation

Zusammenfassung

Support