FFAvatar : Reconstruction d'avatar en quelques exemples, feed-forward et généralisable

Résumé

La reconstruction d'avatars a traditionnellement reposé sur une optimisation par sujet nécessitant des heures de calcul ou sur un prétraitement coûteux limitant l'évolutivité. Nous introduisons FFAvatar, un cadre généralisable de type feed-forward qui reconstruit, en quelques secondes, des avatars de tête gaussiens 3D animables de haute qualité à partir de quelques images de portrait non posées. FFAvatar fusionne les informations issues de plusieurs images sources en une représentation gaussienne canonique unifiée via Multi-View Query-Former, laquelle est animée au moyen de paramètres FLAME prédits de bout en bout directement à partir des pixels, éliminant ainsi la surcharge de l'extraction FLAME hors ligne. Nous proposons en outre un programme d'apprentissage en trois étapes qui atteint à la fois une large généralisation et une reconstruction haute fidélité : (i) un pré-entraînement à grande échelle sur des données vidéo monoculaires étendues avec plus d'un million d'identités pour apprendre de solides a priori généralisables ; (ii) un ajustement fin multi-vues sur un petit ensemble de données de haute qualité de captures à 360 degrés pour améliorer la fidélité géométrique et la conscience des vues extrêmes ; et (iii) une personnalisation optionnelle qui s'adapte aux identités spécifiques pour une fidélité maximale en 500 étapes d'optimisation. Des expériences approfondies montrent que FFAvatar établit une nouvelle norme en matière de préservation de l'identité, de cohérence géométrique et de fidélité de l'animation. Sur le référentiel NeRSemble, il surpasse l'état de l'art LAM avec un gain substantiel de 5,5 PSNR. De plus, FFAvatar permet un déploiement en temps réel, reconstruisant des avatars en 2 secondes sans personnalisation et en 10 secondes avec personnalisation, tout en supportant une animation à 49 FPS sur un seul GPU NVIDIA A100.

English

Avatar reconstruction has traditionally relied on per-subject optimization that requires hours of computation or on expensive preprocessing that limits scalability. We introduce FFAvatar, a generalizable feed-forward framework that reconstructs high-quality, animatable 3D Gaussian head avatars from few-shot unposed portrait images in seconds. FFAvatar fuses information from multiple source images into a unified canonical Gaussian representation through Multi-View Query-Former, which is animated via FLAME parameters predicted end-to-end directly from pixels, eliminating the overhead of offline FLAME extraction. We further propose a three-stage training curriculum that achieves both broad generalization and high-fidelity reconstruction: (i) scalable pretraining on extensive monocular video data with over 1M identities to learn strong generalizable priors; (ii) multi-view fine-tuning on a small but high-quality dataset of 360-degree captures to enhance geometric fidelity and extreme-view awareness; and (iii) optional personalization that adapts to specific identities for maximum fidelity within 500 optimization steps. Extensive experiments demonstrate that FFAvatar sets a new standard for identity preservation, geometric consistency, and animation fidelity. On the NeRSemble benchmark, it outperforms the state-of-the-art LAM by a substantial 5.5 PSNR gain. Furthermore, FFAvatar enables real-time deployment, reconstructing avatars in 2 seconds without personalization and 10 seconds with personalization, while supporting 49 FPS animation on a single NVIDIA A100 GPU.