SpatialAvatar-0: Hochwertiger 4D-Kopfavatar mit mehrstufiger Rekonstruktion

Zusammenfassung

Hochwertige 4D-Kopfavatare aus einem oder wenigen Quellporträts sind zentral für Telepräsenz, AR/VR und die Interaktion mit digitalen Menschen. 3D Gaussian Splatting (3DGS) hat sich als dominierende Repräsentation etabliert, wobei sich zwei komplementäre Ansätze (generalisierbare Feed-Forward-Prädiktoren und probandenspezifische Verfeinerer) parallel weiterentwickeln. Bestehende Feed-Forward-Prädiktoren werden jedoch auf einer einzelnen Datenfamilie mit einer fest codierten Quellenanzahl trainiert und erben entsprechende Bereichsverzerrungen. Probandenspezifische Verfeinerer benötigen 300.000–600.000 Iterationen und stützen sich auf adaptive Verdichtung, die die übergeordneten Gauß-Layouts zerstört und so eine durchgängige gemeinsame Repräsentation beider Ansätze verhindert. Zur Überbrückung beider Ansätze schlagen wir SpatialAvatar-0 auf einer gemeinsamen FLAME-Mesh-gebundenen Gauß-Repräsentation vor: einen Feed-Forward-Generator mit einem parameterfreien K-Quellen-Mean-Pool und einen zweiphasigen Zeitplan von monokular-zeitlich zu multiview-räumlich, der einen Kollaps des Identitätspriors auf die kleinere Multiview-Menge verhindert. Wir führen ferner eine layoutsbewahrende probandenspezifische Verfeinerungsschleife mit 10.000 Iterationen ein, die die FLAME-Bindung und Gauß-Anzahl fixiert und die Verdichtung durch eine dreikomponentige Anti-Spike-Regularisierung ersetzt. Auf den domänenübergreifenden Zero-Shot-Benchmarks VFHQ/HDTF übertreffen wir den domäneninternen Spitzenreiter GAGAvatar um +1,5 dB PSNR, obwohl wir nie auf einer der Testdomänen trainiert haben. Auf dem monokularen SplattingAvatar-Benchmark führen wir in jeder gemeldeten Metrik und übertreffen den 300.000-Iterationen-GeoAvatar um +1,3 dB PSNR bei bis zu 60-mal kürzerer probandenspezifischer Zeitplanung im Vergleich zu gängigen SOTA-Baselines. Website: https://spatialwalk.github.io/SpatialAvatar-0.

English

High-quality 4D head avatars from one or a few source portraits are central to telepresence, AR/VR, and digital-human interaction. 3D Gaussian Splatting (3DGS) has emerged as the dominant representation, with two complementary regimes (generalizable feed-forward predictors and per-subject refiners) maturing in parallel. However, existing feed-forward predictors are trained on a single dataset family with a hard-coded source count, inheriting the corresponding domain bias. Per-subject refiners require 300K--600K iterations and rely on adaptive densification that destroys upstream Gaussian layouts, preventing the two regimes from sharing a representation end-to-end. To bridge both regimes we propose SpatialAvatar-0 on a shared FLAME-mesh-bound Gaussian representation: a feed-forward generator with a parameter-free K-source mean-pool and a monocular-temporal to multi-view-spatial two-phase schedule that anchors against identity-prior collapse onto the smaller multi-view set. We further introduce a 10K-iter layout-preserving per-subject refinement loop that freezes the FLAME-binding and Gaussian count and replaces densification with a three-component anti-spike regularization. On VFHQ/HDTF cross-domain zero-shot we surpass the in-domain leader GAGAvatar by +1.5 dB PSNR despite never training on either test domain, and on the SplattingAvatar monocular benchmark we lead every reported metric, surpassing the 300K-iter GeoAvatar by +1.3 dB PSNR at up to 60x shorter per-subject schedule than common SOTA baselines. Website: https://spatialwalk.github.io/SpatialAvatar-0.