Avatares de cabeza gaussianos 3D consistentes en múltiples vistas "sin" generación de múltiples vistas

Resumen

La generación de avatares de cabeza basados en gaussianas 3D de alta fidelidad es fundamental para aplicaciones como realidad aumentada/realidad virtual (AR/VR), telepresencia y humanos digitales. Los métodos existentes dependen de conjuntos de datos multivista, capturas 3D o síntesis intermedia de vistas 2D. En contraste, nosotros aprendemos modelos de cabeza 3D tanto condicionales como incondicionales únicamente a partir de imágenes 2D muestreadas aleatoriamente, sin usar datos multivista, supervisión 3D ni generación intermedia de vistas. Presentamos MVCHead, un modelo de espacio de estados de un solo disparo que impone consistencia multivista (MVC) directamente en la representación 3D, mientras regresa gaussianas 3D bajo estas restricciones. En su núcleo, proponemos un bloque de Espacio de Estados Jerárquico (HiSS) que refina progresivamente las gaussianas de grueso a fino, capturando dependencias de largo alcance. Dentro de cada bloque HiSS, modificamos el escaneo unidireccional estándar de Mamba con el propuesto Escaneo de Estado Bidireccional Jerárquico (HiBiSS), que alinea la recurrencia con los ejes a lo largo de los cuales las inconsistencias multivista son más fuertes. Finalmente, diseñamos un Crítico Multivista SE(3) que juzga si un conjunto de auto-renderizados proviene de una única configuración 3D subyacente, recompensando la alineación de píxeles entre vistas sin observar pares multivista reales. MVCHead alcanza una calidad perceptiva de última generación, supera a métodos anteriores tanto en consistencia de textura como geométrica, y mantiene una consistencia de forma comparable. Para demostrar escalabilidad, publicamos FaceGS-10K, el primer conjunto de datos a gran escala de activos de cabeza basados en gaussianas 3D listos para usar, para entrenamiento y evaluación de modelos de cabeza 3D. Página del proyecto y código: https://humansensinglab.github.io/MVCHead/

English

High-fidelity 3D Gaussian head avatar generation is critical for applications such as AR/VR, telepresence, and digital humans. Existing methods depend on multi-view datasets, 3D captures, or intermediate 2D view synthesis. In contrast, we learn both conditional and unconditional 3D head models from randomly sampled 2D images alone, without using multi-view data, 3D supervision, or intermediate view generation. We introduce MVCHead, a single-shot state space model that enforces multi-view consistency (MVC) directly in the 3D representation while regressing 3D Gaussians under these constraints. At its core, we propose a Hierarchical State Space (HiSS) block that progressively refines Gaussians from coarse to fine, while capturing long-range dependencies. Within each HiSS block, we modify Mamba's standard unidirectional scan with the proposed Hierarchical Bi-directional State Scan (HiBiSS) that aligns recurrence with the axes along which multi-view inconsistencies are strongest. Finally, we design an SE(3) Multi-view Critic that judges whether a set of self-renders arises from a single underlying 3D configuration, rewarding cross-view pixel alignment without observing real multi-view pairs. MVCHead achieves state-of-the-art perceptual quality, surpasses prior methods in both texture and geometric consistency, and maintains comparable shape consistency. To demonstrate scalability, we release FaceGS-10K, the first large-scale dataset of ready-to-use 3D Gaussian head assets for training and evaluation of 3D head models. Project Page and code: https://humansensinglab.github.io/MVCHead/