SpatialAvatar-0: Hoogwaardige 4D-hoofdavatar met meertrapsreconstructie

Samenvatting

Hoogwaardige 4D-hoofdavatars op basis van één of enkele bronportretten staan centraal in telepresence, AR/VR en digitale-mensinteractie. 3D Gaussian Splatting (3DGS) is uitgegroeid tot de dominante representatie, waarbij twee complementaire regimes (generaliseerbare feed-forward voorspellers en per-proefpersoon verfijners) parallel volwassen worden. Bestaande feed-forward voorspellers worden echter getraind op één enkele datasetfamilie met een vast aantal bronnen, waardoor ze de bijbehorende domeinbias overnemen. Per-proefpersoon verfijners vereisen 300K–600K iteraties en zijn afhankelijk van adaptieve verdichting, die bovenliggende Gaussiaanse lay-outs verstoort, waardoor de twee regimes geen end-to-end representatie kunnen delen. Om beide regimes te overbruggen introduceren wij SpatialAvatar-0 op een gedeelde FLAME-mesh-gebonden Gaussiaanse representatie: een feed-forward generator met een parameter-vrije K-bron gemiddelde-pooling en een twee-fasen schema van monoculair-temporeel naar multi-view-ruimtelijk, dat instorting van de identiteits-prior op de kleinere multi-view set voorkomt. Verder introduceren wij een 10K-iteratie lay-outbehoudende per-proefpersoon verfijningslus die de FLAME-binding en het aantal Gaussiaanse punten bevriest en verdichting vervangt door een drie-componenten anti-piek regularisatie. Op de cross-domein zero-shot VFHQ/HDTF overtreffen wij de in-domein leider GAGAvatar met +1,5 dB PSNR, ondanks dat wij op geen van beide testdomeinen hebben getraind. Op de SplattingAvatar monoculaire benchmark staan wij bovenaan in elke gerapporteerde metriek, waarbij wij de 300K-iteratie GeoAvatar met +1,3 dB PSNR overtreffen met een tot 60x korter per-proefpersoon schema dan gangbare SOTA-baselines. Website: https://spatialwalk.github.io/SpatialAvatar-0.

English

High-quality 4D head avatars from one or a few source portraits are central to telepresence, AR/VR, and digital-human interaction. 3D Gaussian Splatting (3DGS) has emerged as the dominant representation, with two complementary regimes (generalizable feed-forward predictors and per-subject refiners) maturing in parallel. However, existing feed-forward predictors are trained on a single dataset family with a hard-coded source count, inheriting the corresponding domain bias. Per-subject refiners require 300K--600K iterations and rely on adaptive densification that destroys upstream Gaussian layouts, preventing the two regimes from sharing a representation end-to-end. To bridge both regimes we propose SpatialAvatar-0 on a shared FLAME-mesh-bound Gaussian representation: a feed-forward generator with a parameter-free K-source mean-pool and a monocular-temporal to multi-view-spatial two-phase schedule that anchors against identity-prior collapse onto the smaller multi-view set. We further introduce a 10K-iter layout-preserving per-subject refinement loop that freezes the FLAME-binding and Gaussian count and replaces densification with a three-component anti-spike regularization. On VFHQ/HDTF cross-domain zero-shot we surpass the in-domain leader GAGAvatar by +1.5 dB PSNR despite never training on either test domain, and on the SplattingAvatar monocular benchmark we lead every reported metric, surpassing the 300K-iter GeoAvatar by +1.3 dB PSNR at up to 60x shorter per-subject schedule than common SOTA baselines. Website: https://spatialwalk.github.io/SpatialAvatar-0.