FFAvatar: Reconstrução de Avatar Few-Shot, Feed-Forward e Generalizável

Resumo

A reconstrução de avatares tradicionalmente depende de otimização por sujeito, que exige horas de computação, ou de pré-processamento caro que limita a escalabilidade. Apresentamos o FFAvatar, uma arquitetura generalizável de feed-forward que reconstrói avatares de cabeça Gaussianos 3D animáveis e de alta qualidade a partir de imagens de retrato não posadas com poucas amostras em segundos. O FFAvatar funde informações de múltiplas imagens de origem em uma representação Gaussiana canônica unificada por meio do Multi-View Query-Former, a qual é animada via parâmetros FLAME previstos de ponta a ponta diretamente a partir dos pixels, eliminando a sobrecarga da extração offline do FLAME. Propomos ainda um currículo de treinamento em três estágios que alcança tanto ampla generalização quanto reconstrução de alta fidelidade: (i) pré-treinamento escalável em dados extensos de vídeo monocular com mais de 1 milhão de identidades para aprender fortes prioridades generalizáveis; (ii) ajuste fino multivisão em um conjunto de dados pequeno, porém de alta qualidade, com capturas de 360 graus para aprimorar a fidelidade geométrica e a consciência de visões extremas; e (iii) personalização opcional que se adapta a identidades específicas para máxima fidelidade em até 500 passos de otimização. Experimentos extensos demonstram que o FFAvatar estabelece um novo padrão para preservação de identidade, consistência geométrica e fidelidade de animação. No benchmark NeRSemble, ele supera o estado da arte LAM com um ganho substancial de 5,5 PSNR. Além disso, o FFAvatar possibilita implantação em tempo real, reconstruindo avatares em 2 segundos sem personalização e em 10 segundos com personalização, além de suportar animação a 49 FPS em uma única GPU NVIDIA A100.

English

Avatar reconstruction has traditionally relied on per-subject optimization that requires hours of computation or on expensive preprocessing that limits scalability. We introduce FFAvatar, a generalizable feed-forward framework that reconstructs high-quality, animatable 3D Gaussian head avatars from few-shot unposed portrait images in seconds. FFAvatar fuses information from multiple source images into a unified canonical Gaussian representation through Multi-View Query-Former, which is animated via FLAME parameters predicted end-to-end directly from pixels, eliminating the overhead of offline FLAME extraction. We further propose a three-stage training curriculum that achieves both broad generalization and high-fidelity reconstruction: (i) scalable pretraining on extensive monocular video data with over 1M identities to learn strong generalizable priors; (ii) multi-view fine-tuning on a small but high-quality dataset of 360-degree captures to enhance geometric fidelity and extreme-view awareness; and (iii) optional personalization that adapts to specific identities for maximum fidelity within 500 optimization steps. Extensive experiments demonstrate that FFAvatar sets a new standard for identity preservation, geometric consistency, and animation fidelity. On the NeRSemble benchmark, it outperforms the state-of-the-art LAM by a substantial 5.5 PSNR gain. Furthermore, FFAvatar enables real-time deployment, reconstructing avatars in 2 seconds without personalization and 10 seconds with personalization, while supporting 49 FPS animation on a single NVIDIA A100 GPU.