Rijdbare 3D Gaussische Avatars

Samenvatting

We presenteren Drivable 3D Gaussian Avatars (D3GA), het eerste 3D-bestuurbare model voor menselijke lichamen gerenderd met Gaussian splats. Huidige fotorealistische bestuurbare avatars vereisen ofwel nauwkeurige 3D-registraties tijdens de training, dichte invoerbeelden tijdens het testen, of beide. De modellen gebaseerd op neurale stralingsvelden zijn bovendien vaak onpraktisch traag voor telepresence-toepassingen. Dit werk maakt gebruik van de recent gepresenteerde 3D Gaussian Splatting (3DGS)-techniek om realistische mensen te renderen met real-time framerates, waarbij dichte gekalibreerde multi-view video's als invoer worden gebruikt. Om deze primitieven te vervormen, wijken we af van de veelgebruikte puntvervormingsmethode van linear blend skinning (LBS) en gebruiken we een klassieke volumetrische vervormingsmethode: cage deformations. Gezien hun kleinere omvang, sturen we deze vervormingen aan met gewrichtshoeken en keypoints, die beter geschikt zijn voor communicatietoepassingen. Onze experimenten met negen proefpersonen met verschillende lichaamsvormen, kleding en bewegingen leveren kwalitatief betere resultaten op dan state-of-the-art methoden bij gebruik van dezelfde trainings- en testdata.

English

We present Drivable 3D Gaussian Avatars (D3GA), the first 3D controllable model for human bodies rendered with Gaussian splats. Current photorealistic drivable avatars require either accurate 3D registrations during training, dense input images during testing, or both. The ones based on neural radiance fields also tend to be prohibitively slow for telepresence applications. This work uses the recently presented 3D Gaussian Splatting (3DGS) technique to render realistic humans at real-time framerates, using dense calibrated multi-view videos as input. To deform those primitives, we depart from the commonly used point deformation method of linear blend skinning (LBS) and use a classic volumetric deformation method: cage deformations. Given their smaller size, we drive these deformations with joint angles and keypoints, which are more suitable for communication applications. Our experiments on nine subjects with varied body shapes, clothes, and motions obtain higher-quality results than state-of-the-art methods when using the same training and test data.