AvatarReX: Echtzeitfähige expressive Ganzkörper-Avatare
AvatarReX: Real-time Expressive Full-body Avatars
May 8, 2023
Autoren: Zerong Zheng, Xiaochen Zhao, Hongwen Zhang, Boning Liu, Yebin Liu
cs.AI
Zusammenfassung
Wir präsentieren AvatarReX, eine neue Methode zum Erlernen von NeRF-basierten Ganzkörper-Avataren aus Videodaten. Der gelernte Avatar ermöglicht nicht nur eine ausdrucksstarke Steuerung von Körper, Händen und Gesicht gemeinsam, sondern unterstützt auch Echtzeit-Animation und -Rendering. Zu diesem Zweck schlagen wir eine kompositionelle Avatar-Darstellung vor, bei der Körper, Hände und Gesicht separat modelliert werden, sodass die strukturellen Vorgaben aus parametrischen Mesh-Vorlagen effektiv genutzt werden, ohne die Flexibilität der Darstellung zu beeinträchtigen. Darüber hinaus entkoppeln wir die Geometrie und das Erscheinungsbild für jeden Teil. Mit diesen technischen Entwürfen schlagen wir eine spezialisierte Deferred-Rendering-Pipeline vor, die in Echtzeit-Framerate ausgeführt werden kann, um hochwertige Freisichtbilder zu synthetisieren. Die Entkopplung von Geometrie und Erscheinungsbild ermöglicht es uns auch, eine zweistufige Trainingsstrategie zu entwerfen, die Volumenrendering und Oberflächenrendering für das Netzwerktraining kombiniert. Auf diese Weise kann eine Patch-basierte Überwachung angewendet werden, um das Netzwerk zu zwingen, scharfe Erscheinungsdetails auf der Grundlage der Geometrieschätzung zu lernen. Insgesamt ermöglicht unsere Methode die automatische Konstruktion von ausdrucksstarken Ganzkörper-Avataren mit Echtzeit-Rendering-Fähigkeit und kann fotorealistische Bilder mit dynamischen Details für neue Körperbewegungen und Gesichtsausdrücke erzeugen.
English
We present AvatarReX, a new method for learning NeRF-based full-body avatars
from video data. The learnt avatar not only provides expressive control of the
body, hands and the face together, but also supports real-time animation and
rendering. To this end, we propose a compositional avatar representation, where
the body, hands and the face are separately modeled in a way that the
structural prior from parametric mesh templates is properly utilized without
compromising representation flexibility. Furthermore, we disentangle the
geometry and appearance for each part. With these technical designs, we propose
a dedicated deferred rendering pipeline, which can be executed in real-time
framerate to synthesize high-quality free-view images. The disentanglement of
geometry and appearance also allows us to design a two-pass training strategy
that combines volume rendering and surface rendering for network training. In
this way, patch-level supervision can be applied to force the network to learn
sharp appearance details on the basis of geometry estimation. Overall, our
method enables automatic construction of expressive full-body avatars with
real-time rendering capability, and can generate photo-realistic images with
dynamic details for novel body motions and facial expressions.