FFAvatar: Reconstrucción de avatares con pocas muestras, feed-forward y generalizable

Resumen

La reconstrucción de avatares tradicionalmente se ha basado en una optimización por sujeto que requiere horas de cómputo o en un costoso preprocesamiento que limita la escalabilidad. Presentamos FFAvatar, un marco generalizable de tipo feed-forward que reconstruye avatares de cabezas 3D gaussianas de alta calidad y animables a partir de imágenes de retrato no posadas con pocas muestras en cuestión de segundos. FFAvatar fusiona información de múltiples imágenes fuente en una representación gaussiana canónica unificada mediante el Multi-View Query-Former, que se anima a través de parámetros FLAME predichos de extremo a extremo directamente a partir de píxeles, eliminando la sobrecarga de la extracción offline de FLAME. Además, proponemos un plan de entrenamiento en tres etapas que logra tanto una amplia generalización como una reconstrucción de alta fidelidad: (i) preentrenamiento escalable en datos extensos de video monocular con más de 1 millón de identidades para aprender fuertes prioridades generalizables; (ii) ajuste fino multivista en un conjunto de datos pequeño pero de alta calidad de capturas de 360 grados para mejorar la fidelidad geométrica y la conciencia de vistas extremas; y (iii) personalización opcional que se adapta a identidades específicas para máxima fidelidad en tan solo 500 pasos de optimización. Experimentos exhaustivos demuestran que FFAvatar establece un nuevo estándar en preservación de identidad, consistencia geométrica y fidelidad de animación. En el punto de referencia NeRSemble, supera al estado del arte LAM con una ganancia sustancial de 5,5 PSNR. Además, FFAvatar permite el despliegue en tiempo real, reconstruyendo avatares en 2 segundos sin personalización y en 10 segundos con personalización, mientras soporta una animación de 49 FPS en una sola GPU NVIDIA A100.

English

Avatar reconstruction has traditionally relied on per-subject optimization that requires hours of computation or on expensive preprocessing that limits scalability. We introduce FFAvatar, a generalizable feed-forward framework that reconstructs high-quality, animatable 3D Gaussian head avatars from few-shot unposed portrait images in seconds. FFAvatar fuses information from multiple source images into a unified canonical Gaussian representation through Multi-View Query-Former, which is animated via FLAME parameters predicted end-to-end directly from pixels, eliminating the overhead of offline FLAME extraction. We further propose a three-stage training curriculum that achieves both broad generalization and high-fidelity reconstruction: (i) scalable pretraining on extensive monocular video data with over 1M identities to learn strong generalizable priors; (ii) multi-view fine-tuning on a small but high-quality dataset of 360-degree captures to enhance geometric fidelity and extreme-view awareness; and (iii) optional personalization that adapts to specific identities for maximum fidelity within 500 optimization steps. Extensive experiments demonstrate that FFAvatar sets a new standard for identity preservation, geometric consistency, and animation fidelity. On the NeRSemble benchmark, it outperforms the state-of-the-art LAM by a substantial 5.5 PSNR gain. Furthermore, FFAvatar enables real-time deployment, reconstructing avatars in 2 seconds without personalization and 10 seconds with personalization, while supporting 49 FPS animation on a single NVIDIA A100 GPU.