Согласованные по множеству видов 3D-гауссовы аватары головы «без» многовидовой генерации

Аннотация

Высокоточная генерация 3D-головных аватаров на основе гауссианов имеет решающее значение для таких приложений, как AR/VR, телеприсутствие и цифровые люди. Существующие методы основаны на многовидовых наборах данных, 3D-захватах или промежуточном синтезе 2D-изображений. В отличие от них, мы обучаем как условные, так и безусловные 3D-модели головы исключительно на случайно выбранных 2D-изображениях, без использования многовидовых данных, 3D-надзора или промежуточной генерации видов. Мы представляем MVCHead — однопроходную модель пространства состояний, которая обеспечивает многовидовую согласованность (MVC) непосредственно в 3D-представлении, одновременно регрессируя 3D-гауссианы при этих ограничениях. В основе модели лежит предложенный иерархический блок пространства состояний (HiSS), который постепенно уточняет гауссианы от грубого к точному, улавливая долгосрочные зависимости. Внутри каждого блока HiSS мы модифицируем стандартное однонаправленное сканирование Mamba с помощью предложенного иерархического двунаправленного сканирования состояний (HiBiSS), которое выравнивает рекуррентность вдоль осей, вдоль которых многовидовые несоответствия наиболее сильны. Наконец, мы разрабатываем SE(3)-многовидовой критик, который оценивает, возникает ли набор собственных рендеров из единой 3D-конфигурации, поощряя попиксельное выравнивание между видами без наблюдения реальных многовидовых пар. MVCHead достигает современного перцепционного качества, превосходит предыдущие методы как по текстурной, так и по геометрической согласованности, сохраняя при этом сопоставимую согласованность формы. Для демонстрации масштабируемости мы выпускаем FaceGS-10K — первый крупномасштабный набор данных готовых к использованию 3D-головных аватаров на основе гауссианов для обучения и оценки 3D-моделей головы. Страница проекта и код: https://humansensinglab.github.io/MVCHead/

English

High-fidelity 3D Gaussian head avatar generation is critical for applications such as AR/VR, telepresence, and digital humans. Existing methods depend on multi-view datasets, 3D captures, or intermediate 2D view synthesis. In contrast, we learn both conditional and unconditional 3D head models from randomly sampled 2D images alone, without using multi-view data, 3D supervision, or intermediate view generation. We introduce MVCHead, a single-shot state space model that enforces multi-view consistency (MVC) directly in the 3D representation while regressing 3D Gaussians under these constraints. At its core, we propose a Hierarchical State Space (HiSS) block that progressively refines Gaussians from coarse to fine, while capturing long-range dependencies. Within each HiSS block, we modify Mamba's standard unidirectional scan with the proposed Hierarchical Bi-directional State Scan (HiBiSS) that aligns recurrence with the axes along which multi-view inconsistencies are strongest. Finally, we design an SE(3) Multi-view Critic that judges whether a set of self-renders arises from a single underlying 3D configuration, rewarding cross-view pixel alignment without observing real multi-view pairs. MVCHead achieves state-of-the-art perceptual quality, surpasses prior methods in both texture and geometric consistency, and maintains comparable shape consistency. To demonstrate scalability, we release FaceGS-10K, the first large-scale dataset of ready-to-use 3D Gaussian head assets for training and evaluation of 3D head models. Project Page and code: https://humansensinglab.github.io/MVCHead/