ChatPaper.aiChatPaper

AvatarReX: Echtzeitfähige expressive Ganzkörper-Avatare

AvatarReX: Real-time Expressive Full-body Avatars

May 8, 2023
Autoren: Zerong Zheng, Xiaochen Zhao, Hongwen Zhang, Boning Liu, Yebin Liu
cs.AI

Zusammenfassung

Wir präsentieren AvatarReX, eine neue Methode zum Erlernen von NeRF-basierten Ganzkörper-Avataren aus Videodaten. Der gelernte Avatar ermöglicht nicht nur eine ausdrucksstarke Steuerung von Körper, Händen und Gesicht gemeinsam, sondern unterstützt auch Echtzeit-Animation und -Rendering. Zu diesem Zweck schlagen wir eine kompositionelle Avatar-Darstellung vor, bei der Körper, Hände und Gesicht separat modelliert werden, sodass die strukturellen Vorgaben aus parametrischen Mesh-Vorlagen effektiv genutzt werden, ohne die Flexibilität der Darstellung zu beeinträchtigen. Darüber hinaus entkoppeln wir die Geometrie und das Erscheinungsbild für jeden Teil. Mit diesen technischen Entwürfen schlagen wir eine spezialisierte Deferred-Rendering-Pipeline vor, die in Echtzeit-Framerate ausgeführt werden kann, um hochwertige Freisichtbilder zu synthetisieren. Die Entkopplung von Geometrie und Erscheinungsbild ermöglicht es uns auch, eine zweistufige Trainingsstrategie zu entwerfen, die Volumenrendering und Oberflächenrendering für das Netzwerktraining kombiniert. Auf diese Weise kann eine Patch-basierte Überwachung angewendet werden, um das Netzwerk zu zwingen, scharfe Erscheinungsdetails auf der Grundlage der Geometrieschätzung zu lernen. Insgesamt ermöglicht unsere Methode die automatische Konstruktion von ausdrucksstarken Ganzkörper-Avataren mit Echtzeit-Rendering-Fähigkeit und kann fotorealistische Bilder mit dynamischen Details für neue Körperbewegungen und Gesichtsausdrücke erzeugen.
English
We present AvatarReX, a new method for learning NeRF-based full-body avatars from video data. The learnt avatar not only provides expressive control of the body, hands and the face together, but also supports real-time animation and rendering. To this end, we propose a compositional avatar representation, where the body, hands and the face are separately modeled in a way that the structural prior from parametric mesh templates is properly utilized without compromising representation flexibility. Furthermore, we disentangle the geometry and appearance for each part. With these technical designs, we propose a dedicated deferred rendering pipeline, which can be executed in real-time framerate to synthesize high-quality free-view images. The disentanglement of geometry and appearance also allows us to design a two-pass training strategy that combines volume rendering and surface rendering for network training. In this way, patch-level supervision can be applied to force the network to learn sharp appearance details on the basis of geometry estimation. Overall, our method enables automatic construction of expressive full-body avatars with real-time rendering capability, and can generate photo-realistic images with dynamic details for novel body motions and facial expressions.
PDF10December 15, 2024