Avatars de tête gaussiens 3D cohérents en multi-vue « sans » génération multi-vue

Résumé

La génération d'avatars de tête gaussiens 3D haute fidélité est cruciale pour des applications telles que la réalité augmentée/réalité virtuelle (AR/VR), la téléprésence et les humains numériques. Les méthodes existantes reposent sur des ensembles de données multivues, des captures 3D ou une synthèse intermédiaire de vues 2D. En revanche, nous apprenons des modèles de tête 3D conditionnels et inconditionnels à partir de seules images 2D échantillonnées aléatoirement, sans utiliser de données multivues, de supervision 3D ni de génération intermédiaire de vues. Nous introduisons MVCHead, un modèle d'espace d'états à prise unique qui impose directement la cohérence multivue dans la représentation 3D tout en régressant des gaussiens 3D sous ces contraintes. Au cœur de ce modèle, nous proposons un bloc d'espace d'états hiérarchique (HiSS) qui affine progressivement les gaussiens du grossier au fin, tout en capturant les dépendances à longue portée. Au sein de chaque bloc HiSS, nous modifions le balayage unidirectionnel standard de Mamba avec le balayage d'états bidirectionnel hiérarchique (HiBiSS) proposé, qui aligne la récurrence sur les axes le long desquels les incohérences multivues sont les plus fortes. Enfin, nous concevons un critique multivue SE(3) qui juge si un ensemble d'auto-rendus provient d'une seule configuration 3D sous-jacente, récompensant l'alignement de pixels inter-vues sans observer de paires multivues réelles. MVCHead atteint une qualité perceptuelle de pointe, dépasse les méthodes antérieures tant en cohérence de texture que de géométrie, et maintient une cohérence de forme comparable. Pour démontrer son évolutivité, nous publions FaceGS-10K, le premier ensemble de données à grande échelle d'actifs de tête gaussiens 3D prêts à l'emploi pour l'entraînement et l'évaluation de modèles de tête 3D. Page du projet et code : https://humansensinglab.github.io/MVCHead/

English

High-fidelity 3D Gaussian head avatar generation is critical for applications such as AR/VR, telepresence, and digital humans. Existing methods depend on multi-view datasets, 3D captures, or intermediate 2D view synthesis. In contrast, we learn both conditional and unconditional 3D head models from randomly sampled 2D images alone, without using multi-view data, 3D supervision, or intermediate view generation. We introduce MVCHead, a single-shot state space model that enforces multi-view consistency (MVC) directly in the 3D representation while regressing 3D Gaussians under these constraints. At its core, we propose a Hierarchical State Space (HiSS) block that progressively refines Gaussians from coarse to fine, while capturing long-range dependencies. Within each HiSS block, we modify Mamba's standard unidirectional scan with the proposed Hierarchical Bi-directional State Scan (HiBiSS) that aligns recurrence with the axes along which multi-view inconsistencies are strongest. Finally, we design an SE(3) Multi-view Critic that judges whether a set of self-renders arises from a single underlying 3D configuration, rewarding cross-view pixel alignment without observing real multi-view pairs. MVCHead achieves state-of-the-art perceptual quality, surpasses prior methods in both texture and geometric consistency, and maintains comparable shape consistency. To demonstrate scalability, we release FaceGS-10K, the first large-scale dataset of ready-to-use 3D Gaussian head assets for training and evaluation of 3D head models. Project Page and code: https://humansensinglab.github.io/MVCHead/