Avatares de Cabeça Gaussianos 3D Consistentes em Multivista 'sem' Geração de Multivista

Resumo

A geração de avatares de cabeça 3D Gaussianos de alta fidelidade é fundamental para aplicações como RA/RV, telepresença e humanos digitais. Métodos existentes dependem de conjuntos de dados multivista, capturas 3D ou síntese intermediária de vistas 2D. Em contraste, aprendemos modelos de cabeça 3D condicionais e incondicionais apenas a partir de imagens 2D amostradas aleatoriamente, sem usar dados multivista, supervisão 3D ou geração intermediária de vistas. Apresentamos o MVCHead, um modelo de espaço de estados de disparo único que impõe consistência multivista (MVC) diretamente na representação 3D, ao mesmo tempo que regride Gaussianos 3D sob essas restrições. Em seu núcleo, propomos um bloco de Espaço de Estados Hierárquico (HiSS) que refina progressivamente os Gaussianos do grosso para o fino, capturando dependências de longo alcance. Em cada bloco HiSS, modificamos a varredura unidirecional padrão do Mamba com a proposta Varredura de Estado Bidirecional Hierárquica (HiBiSS), que alinha a recorrência com os eixos ao longo dos quais as inconsistências multivista são mais fortes. Finalmente, projetamos um Crítico Multivista SE(3) que julga se um conjunto de autorrenderizações provém de uma única configuração 3D subjacente, recompensando o alinhamento de pixels entre vistas sem observar pares multivista reais. O MVCHead atinge qualidade perceptiva de ponta, supera métodos anteriores tanto em consistência de textura quanto geométrica, e mantém consistência de forma comparável. Para demonstrar escalabilidade, disponibilizamos o FaceGS-10K, o primeiro conjunto de dados em grande escala de ativos de cabeça Gaussianos 3D prontos para uso, para treinamento e avaliação de modelos de cabeça 3D. Página do projeto e código: https://humansensinglab.github.io/MVCHead/

English

High-fidelity 3D Gaussian head avatar generation is critical for applications such as AR/VR, telepresence, and digital humans. Existing methods depend on multi-view datasets, 3D captures, or intermediate 2D view synthesis. In contrast, we learn both conditional and unconditional 3D head models from randomly sampled 2D images alone, without using multi-view data, 3D supervision, or intermediate view generation. We introduce MVCHead, a single-shot state space model that enforces multi-view consistency (MVC) directly in the 3D representation while regressing 3D Gaussians under these constraints. At its core, we propose a Hierarchical State Space (HiSS) block that progressively refines Gaussians from coarse to fine, while capturing long-range dependencies. Within each HiSS block, we modify Mamba's standard unidirectional scan with the proposed Hierarchical Bi-directional State Scan (HiBiSS) that aligns recurrence with the axes along which multi-view inconsistencies are strongest. Finally, we design an SE(3) Multi-view Critic that judges whether a set of self-renders arises from a single underlying 3D configuration, rewarding cross-view pixel alignment without observing real multi-view pairs. MVCHead achieves state-of-the-art perceptual quality, surpasses prior methods in both texture and geometric consistency, and maintains comparable shape consistency. To demonstrate scalability, we release FaceGS-10K, the first large-scale dataset of ready-to-use 3D Gaussian head assets for training and evaluation of 3D head models. Project Page and code: https://humansensinglab.github.io/MVCHead/