Mehransichtskonsistente 3D-Gauß-Kopfavatare 'ohne' Mehransichtsgenerierung

Zusammenfassung

Hochgetreue 3D-Gauß-Kopfavatarerzeugung ist entscheidend für Anwendungen wie AR/VR, Telepräsenz und digitale Menschen. Bestehende Methoden basieren auf Multiview-Datensätzen, 3D-Aufnahmen oder der Synthese intermediärer 2D-Ansichten. Im Gegensatz dazu lernen wir sowohl bedingte als auch unbedingte 3D-Kopfmodelle ausschließlich aus zufällig abgetasteten 2D-Bildern, ohne Multiview-Daten, 3D-Überwachung oder die Erzeugung von Zwischenansichten zu verwenden. Wir stellen MVCHead vor, ein Einzelbild-Zustandsraummodell, das Multiview-Konsistenz (MVC) direkt in der 3D-Repräsentation erzwingt, während es unter diesen Einschränkungen 3D-Gauß-Primitive regressiert. Kernstück ist ein vorgeschlagener hierarchischer Zustandsraum (HiSS)-Block, der Gauß-Primitive schrittweise von grob zu fein verfeinert und dabei weitreichende Abhängigkeiten erfasst. Innerhalb jedes HiSS-Blocks modifizieren wir Mambas standardmäßigen unidirektionalen Scan durch den vorgeschlagenen hierarchischen bidirektionalen Zustandsscan (HiBiSS), der die Rekurrenz entlang der Achsen ausrichtet, auf denen Multiview-Inkonsistenzen am stärksten sind. Schließlich entwerfen wir einen SE(3)-Multiview-Kritiker, der beurteilt, ob eine Menge von Selbst-Renderings aus einer einzigen zugrunde liegenden 3D-Konfiguration stammt, und belohnt die Pixelausrichtung zwischen Ansichten, ohne dass echte Multiview-Paare beobachtet werden. MVCHead erreicht modernste Wahrnehmungsqualität, übertrifft frühere Methoden sowohl in der Textur- als auch in der geometrischen Konsistenz und behält eine vergleichbare Formkonsistenz bei. Zur Demonstration der Skalierbarkeit veröffentlichen wir FaceGS-10K, den ersten großen Datensatz mit einsatzbereiten 3D-Gauß-Kopf-Assets für das Training und die Evaluierung von 3D-Kopfmodellen. Projektseite und Code: https://humansensinglab.github.io/MVCHead/

English

High-fidelity 3D Gaussian head avatar generation is critical for applications such as AR/VR, telepresence, and digital humans. Existing methods depend on multi-view datasets, 3D captures, or intermediate 2D view synthesis. In contrast, we learn both conditional and unconditional 3D head models from randomly sampled 2D images alone, without using multi-view data, 3D supervision, or intermediate view generation. We introduce MVCHead, a single-shot state space model that enforces multi-view consistency (MVC) directly in the 3D representation while regressing 3D Gaussians under these constraints. At its core, we propose a Hierarchical State Space (HiSS) block that progressively refines Gaussians from coarse to fine, while capturing long-range dependencies. Within each HiSS block, we modify Mamba's standard unidirectional scan with the proposed Hierarchical Bi-directional State Scan (HiBiSS) that aligns recurrence with the axes along which multi-view inconsistencies are strongest. Finally, we design an SE(3) Multi-view Critic that judges whether a set of self-renders arises from a single underlying 3D configuration, rewarding cross-view pixel alignment without observing real multi-view pairs. MVCHead achieves state-of-the-art perceptual quality, surpasses prior methods in both texture and geometric consistency, and maintains comparable shape consistency. To demonstrate scalability, we release FaceGS-10K, the first large-scale dataset of ready-to-use 3D Gaussian head assets for training and evaluation of 3D head models. Project Page and code: https://humansensinglab.github.io/MVCHead/