AvatarReX: Real-time expressieve full-body avatars

Samenvatting

We presenteren AvatarReX, een nieuwe methode voor het leren van NeRF-gebaseerde full-body avatars vanuit videodata. De geleerde avatar biedt niet alleen expressieve controle over het lichaam, de handen en het gezicht samen, maar ondersteunt ook real-time animatie en rendering. Hiertoe stellen we een compositorische avatarrepresentatie voor, waarbij het lichaam, de handen en het gezicht afzonderlijk worden gemodelleerd op een manier die het structurele voorafgaande van parametrische mesh-sjablonen optimaal benut zonder de representatieflexibiliteit aan te tasten. Bovendien ontwarren we de geometrie en het uiterlijk voor elk onderdeel. Met deze technische ontwerpen stellen we een speciaal uitgesteld renderingpijplijn voor, die in real-time framerate kan worden uitgevoerd om hoogwaardige free-view beelden te synthetiseren. Het ontwarren van geometrie en uiterlijk stelt ons ook in staat om een tweefasige trainingsstrategie te ontwerpen die volume rendering en oppervlakterendering combineert voor netwerktraining. Op deze manier kan patch-level supervisie worden toegepast om het netwerk te dwingen scherpe uiterlijke details te leren op basis van geometrie-estimatie. Over het algemeen maakt onze methode de automatische constructie van expressieve full-body avatars met real-time renderingmogelijkheden mogelijk, en kan het foto-realistische beelden genereren met dynamische details voor nieuwe lichaamsbewegingen en gezichtsuitdrukkingen.

English

We present AvatarReX, a new method for learning NeRF-based full-body avatars from video data. The learnt avatar not only provides expressive control of the body, hands and the face together, but also supports real-time animation and rendering. To this end, we propose a compositional avatar representation, where the body, hands and the face are separately modeled in a way that the structural prior from parametric mesh templates is properly utilized without compromising representation flexibility. Furthermore, we disentangle the geometry and appearance for each part. With these technical designs, we propose a dedicated deferred rendering pipeline, which can be executed in real-time framerate to synthesize high-quality free-view images. The disentanglement of geometry and appearance also allows us to design a two-pass training strategy that combines volume rendering and surface rendering for network training. In this way, patch-level supervision can be applied to force the network to learn sharp appearance details on the basis of geometry estimation. Overall, our method enables automatic construction of expressive full-body avatars with real-time rendering capability, and can generate photo-realistic images with dynamic details for novel body motions and facial expressions.

AvatarReX: Real-time expressieve full-body avatars

AvatarReX: Real-time Expressive Full-body Avatars

Samenvatting

Support