SpatialAvatar-0 : Avatar de tête 4D haute qualité avec reconstruction multi-étapes

Résumé

Des avatars de tête 4D de haute qualité à partir d’un ou de quelques portraits sources sont essentiels pour la téléprésence, la RA/RV et l’interaction humain-numérique. Le 3D Gaussian Splatting (3DGS) est devenu la représentation dominante, avec deux régimes complémentaires (prédicteurs feed-forward généralisables et affineurs par sujet) qui mûrissent en parallèle. Cependant, les prédicteurs feed-forward existants sont entraînés sur une seule famille de jeux de données avec un nombre de sources codé en dur, héritant ainsi du biais de domaine correspondant. Les affineurs par sujet nécessitent entre 300 000 et 600 000 itérations et reposent sur une densification adaptative qui détruit les dispositions gaussiennes initiales, empêchant les deux régimes de partager une représentation de bout en bout. Pour rapprocher ces deux régimes, nous proposons SpatialAvatar-0 reposant sur une représentation gaussienne partagée liée au maillage FLAME : un générateur feed-forward avec une moyenne pondérée K sources sans paramètre et un plan en deux phases passant du temporel monoculaire au spatial multivue qui ancre le prior d’identité pour éviter son effondrement sur l’ensemble multivue plus petit. Nous introduisons également une boucle d’affinage par sujet préservant la disposition en 10 000 itérations, qui gèle la liaison FLAME et le nombre de gaussiennes, et remplace la densification par une régularisation anti-pic à trois composantes. Sur le benchmark zero-shot cross-domaine VFHQ/HDTF, nous surpassons le leader intra-domaine GAGAvatar de +1,5 dB PSNR bien que n’ayant jamais été entraînés sur l’un ou l’autre domaine de test, et sur le benchmark monoculaire SplattingAvatar, nous menons toutes les métriques rapportées, surpassant GeoAvatar (300 000 itérations) de +1,3 dB PSNR avec un planning par sujet jusqu’à 60 fois plus court que les meilleures bases de référence actuelles. Site web : https://spatialwalk.github.io/SpatialAvatar-0.

English

High-quality 4D head avatars from one or a few source portraits are central to telepresence, AR/VR, and digital-human interaction. 3D Gaussian Splatting (3DGS) has emerged as the dominant representation, with two complementary regimes (generalizable feed-forward predictors and per-subject refiners) maturing in parallel. However, existing feed-forward predictors are trained on a single dataset family with a hard-coded source count, inheriting the corresponding domain bias. Per-subject refiners require 300K--600K iterations and rely on adaptive densification that destroys upstream Gaussian layouts, preventing the two regimes from sharing a representation end-to-end. To bridge both regimes we propose SpatialAvatar-0 on a shared FLAME-mesh-bound Gaussian representation: a feed-forward generator with a parameter-free K-source mean-pool and a monocular-temporal to multi-view-spatial two-phase schedule that anchors against identity-prior collapse onto the smaller multi-view set. We further introduce a 10K-iter layout-preserving per-subject refinement loop that freezes the FLAME-binding and Gaussian count and replaces densification with a three-component anti-spike regularization. On VFHQ/HDTF cross-domain zero-shot we surpass the in-domain leader GAGAvatar by +1.5 dB PSNR despite never training on either test domain, and on the SplattingAvatar monocular benchmark we lead every reported metric, surpassing the 300K-iter GeoAvatar by +1.3 dB PSNR at up to 60x shorter per-subject schedule than common SOTA baselines. Website: https://spatialwalk.github.io/SpatialAvatar-0.