FFAvatar: Wenig-Aufnahmen-basierte, vorwärtsgerichtete und verallgemeinerbare Avatar-Rekonstruktion

Zusammenfassung

Die Avatarekonstruktion basierte traditionell auf einer subjektspezifischen Optimierung, die stundenlange Berechnungen oder teure Vorverarbeitung erforderte, was die Skalierbarkeit einschränkt. Wir stellen FFAvatar vor, ein generalisierbares Feed-Forward-Framework, das aus wenigen ungestellten Porträtbildern in Sekunden hochwertige, animierbare 3D-Gauß-Kopfavatare rekonstruiert. FFAvatar fusioniert Informationen aus mehreren Quellbildern durch den Multi-View Query-Former zu einer einheitlichen kanonischen Gauß-Darstellung, die über end-to-end aus Pixeln vorhergesagte FLAME-Parameter animiert wird, wodurch der Aufwand einer Offline-FLAME-Extraktion entfällt. Weiterhin schlagen wir ein dreistufiges Trainingscurriculum vor, das sowohl eine breite Generalisierung als auch eine hochgetreue Rekonstruktion erreicht: (i) skalierbares Vorabtraining auf umfangreichen monokularen Videodaten mit über 1 Million Identitäten zum Erlernen starker generalisierbarer Vorkenntnisse; (ii) Multi-View-Feinabstimmung auf einem kleinen, aber qualitativ hochwertigen Datensatz von 360-Grad-Aufnahmen zur Verbesserung der geometrischen Genauigkeit und der Wahrnehmung extremer Blickwinkel; und (iii) optionale Personalisierung, die sich innerhalb von 500 Optimierungsschritten an spezifische Identitäten für maximale Genauigkeit anpasst. Umfangreiche Experimente belegen, dass FFAvatar einen neuen Standard für Identitätserhaltung, geometrische Konsistenz und Animationsgenauigkeit setzt. Auf dem NeRSemble-Benchmark übertrifft es den aktuellen Stand der Technik, LAM, um einen deutlichen PSNR-Gewinn von 5,5 dB. Darüber hinaus ermöglicht FFAvatar den Echtzeit-Einsatz: Avatare werden ohne Personalisierung in 2 Sekunden und mit Personalisierung in 10 Sekunden rekonstruiert, bei gleichzeitiger Unterstützung von 49 FPS Animation auf einer einzelnen NVIDIA A100 GPU.

English

Avatar reconstruction has traditionally relied on per-subject optimization that requires hours of computation or on expensive preprocessing that limits scalability. We introduce FFAvatar, a generalizable feed-forward framework that reconstructs high-quality, animatable 3D Gaussian head avatars from few-shot unposed portrait images in seconds. FFAvatar fuses information from multiple source images into a unified canonical Gaussian representation through Multi-View Query-Former, which is animated via FLAME parameters predicted end-to-end directly from pixels, eliminating the overhead of offline FLAME extraction. We further propose a three-stage training curriculum that achieves both broad generalization and high-fidelity reconstruction: (i) scalable pretraining on extensive monocular video data with over 1M identities to learn strong generalizable priors; (ii) multi-view fine-tuning on a small but high-quality dataset of 360-degree captures to enhance geometric fidelity and extreme-view awareness; and (iii) optional personalization that adapts to specific identities for maximum fidelity within 500 optimization steps. Extensive experiments demonstrate that FFAvatar sets a new standard for identity preservation, geometric consistency, and animation fidelity. On the NeRSemble benchmark, it outperforms the state-of-the-art LAM by a substantial 5.5 PSNR gain. Furthermore, FFAvatar enables real-time deployment, reconstructing avatars in 2 seconds without personalization and 10 seconds with personalization, while supporting 49 FPS animation on a single NVIDIA A100 GPU.