SpatialAvatar-0: Avatar de Cabeza 4D de Alta Calidad con Reconstrucción Multi-Etapa

Resumen

Los avatares de cabeza 4D de alta calidad a partir de uno o varios retratos fuente son fundamentales para la telepresencia, la realidad aumentada/realidad virtual (RA/RV) y la interacción humano-digital. El Splatting de Gaussianas 3D (3DGS) se ha consolidado como la representación dominante, con dos regímenes complementarios (predictores feed-forward generalizables y refinadores por sujeto) que maduran en paralelo. Sin embargo, los predictores feed-forward existentes se entrenan en una única familia de conjuntos de datos con un número fijo de fuentes predefinido, heredando el sesgo de dominio correspondiente. Los refinadores por sujeto requieren entre 300K y 600K iteraciones y dependen de un engrosamiento adaptativo que destruye las configuraciones Gaussianas ascendentes, impidiendo que ambos regímenes compartan una representación de extremo a extremo. Para unir ambos regímenes, proponemos SpatialAvatar-0 sobre una representación Gaussiana ligada a la malla FLAME compartida: un generador feed-forward con un agrupamiento medio (mean-pool) de K fuentes sin parámetros y un programa de dos fases (temporal monocular a espacial multivista) que evita que el prior de identidad colapse en el conjunto multivista más pequeño. Además, introducimos un bucle de refinamiento por sujeto de 10K iteraciones que conserva el diseño, congela la unión a FLAME y el número de Gaussianas, y reemplaza el engrosamiento por una regularización anti-picos de tres componentes. En el entorno zero-shot entre dominios VFHQ/HDTF, superamos al líder dentro del dominio GAGAvatar en +1.5 dB de PSNR, a pesar de nunca haber entrenado en ninguno de los dominios de prueba, y en el benchmark monocular SplattingAvatar lideramos todas las métricas reportadas, superando a GeoAvatar (300K iteraciones) en +1.3 dB de PSNR con un programa por sujeto hasta 60 veces más corto que las líneas base SOTA comunes. Sitio web: https://spatialwalk.github.io/SpatialAvatar-0.

English

High-quality 4D head avatars from one or a few source portraits are central to telepresence, AR/VR, and digital-human interaction. 3D Gaussian Splatting (3DGS) has emerged as the dominant representation, with two complementary regimes (generalizable feed-forward predictors and per-subject refiners) maturing in parallel. However, existing feed-forward predictors are trained on a single dataset family with a hard-coded source count, inheriting the corresponding domain bias. Per-subject refiners require 300K--600K iterations and rely on adaptive densification that destroys upstream Gaussian layouts, preventing the two regimes from sharing a representation end-to-end. To bridge both regimes we propose SpatialAvatar-0 on a shared FLAME-mesh-bound Gaussian representation: a feed-forward generator with a parameter-free K-source mean-pool and a monocular-temporal to multi-view-spatial two-phase schedule that anchors against identity-prior collapse onto the smaller multi-view set. We further introduce a 10K-iter layout-preserving per-subject refinement loop that freezes the FLAME-binding and Gaussian count and replaces densification with a three-component anti-spike regularization. On VFHQ/HDTF cross-domain zero-shot we surpass the in-domain leader GAGAvatar by +1.5 dB PSNR despite never training on either test domain, and on the SplattingAvatar monocular benchmark we lead every reported metric, surpassing the 300K-iter GeoAvatar by +1.3 dB PSNR at up to 60x shorter per-subject schedule than common SOTA baselines. Website: https://spatialwalk.github.io/SpatialAvatar-0.