SpatialAvatar-0: Высококачественный 4D-аватар головы с многоэтапной реконструкцией

Аннотация

Высококачественные 4D-аватары головы по одному или нескольким исходным портретам являются ключевыми для телеприсутствия, AR/VR и взаимодействия с цифровыми людьми. 3D Gaussian Splatting (3DGS) стал доминирующим представлением, при этом два взаимодополняющих режима (обобщаемые предсказатели прямого распространения и уточнители для каждого субъекта) развиваются параллельно. Однако существующие предсказатели прямого распространения обучаются на одном семействе наборов данных с фиксированным числом источников, наследуя соответствующее смещение домена. Уточнители для каждого субъекта требуют 300K–600K итераций и полагаются на адаптивное уплотнение, которое разрушает исходные структуры гауссианов, не позволяя двум режимам совместно использовать представление от начала до конца. Чтобы преодолеть разрыв между режимами, мы предлагаем SpatialAvatar-0 на основе общего представления гауссианов, привязанных к сетке FLAME: генератор прямого распространения с непараметрическим усреднением по K источникам и двухфазным планом от монокулярно-временного к многовидово-пространственному, который предотвращает коллапс априорного знания о личности на меньшем многовидовом наборе. Мы также предлагаем цикл уточнения для каждого субъекта из 10K итераций, сохраняющий структуру, который замораживает привязку к FLAME и количество гауссианов и заменяет уплотнение трехкомпонентной регуляризацией против выбросов. На кросс-доменном zero-shot тесте VFHQ/HDTF мы превосходим внутридоменного лидера GAGAvatar на +1,5 дБ PSNR, несмотря на отсутствие обучения на каком-либо из тестовых доменов, а на монокулярном бенчмарке SplattingAvatar мы лидируем по всем опубликованным метрикам, превосходя GeoAvatar с 300K итерациями на +1,3 дБ PSNR при до 60-кратно более коротком графике для каждого субъекта по сравнению с обычными SOTA-базовыми линиями. Веб-сайт: https://spatialwalk.github.io/SpatialAvatar-0.

English

High-quality 4D head avatars from one or a few source portraits are central to telepresence, AR/VR, and digital-human interaction. 3D Gaussian Splatting (3DGS) has emerged as the dominant representation, with two complementary regimes (generalizable feed-forward predictors and per-subject refiners) maturing in parallel. However, existing feed-forward predictors are trained on a single dataset family with a hard-coded source count, inheriting the corresponding domain bias. Per-subject refiners require 300K--600K iterations and rely on adaptive densification that destroys upstream Gaussian layouts, preventing the two regimes from sharing a representation end-to-end. To bridge both regimes we propose SpatialAvatar-0 on a shared FLAME-mesh-bound Gaussian representation: a feed-forward generator with a parameter-free K-source mean-pool and a monocular-temporal to multi-view-spatial two-phase schedule that anchors against identity-prior collapse onto the smaller multi-view set. We further introduce a 10K-iter layout-preserving per-subject refinement loop that freezes the FLAME-binding and Gaussian count and replaces densification with a three-component anti-spike regularization. On VFHQ/HDTF cross-domain zero-shot we surpass the in-domain leader GAGAvatar by +1.5 dB PSNR despite never training on either test domain, and on the SplattingAvatar monocular benchmark we lead every reported metric, surpassing the 300K-iter GeoAvatar by +1.3 dB PSNR at up to 60x shorter per-subject schedule than common SOTA baselines. Website: https://spatialwalk.github.io/SpatialAvatar-0.