FFAvatar: Weinig-shot, Feed-Forward en Generaliseerbare Avatarreconstructie

Samenvatting

Avatarenreconstructie is traditioneel afhankelijk geweest van per-subject optimalisatie die uren aan rekenkracht vereist, of van dure voorbewerking die de schaalbaarheid beperkt. We introduceren FFAvatar, een generaliseerbaar feed-forward raamwerk dat in seconden hoogwaardige, animeerbare 3D-Gaussiaanse hoofadavatars reconstrueert uit enkele niet-geposeerde portretafbeeldingen. FFAvatar fuseert informatie uit meerdere bronafbeeldingen in een uniforme canonieke Gaussiaanse representatie via Multi-View Query-Former, die wordt geanimeerd via FLAME-parameters die end-to-end direct uit pixels worden voorspeld, waardoor de overhead van offline FLAME-extractie wordt geëlimineerd. We stellen verder een driefasig trainingscurriculum voor dat zowel brede generalisatie als reconstructie met hoge getrouwheid bereikt: (i) schaalbare voortraining op uitgebreide monoscopische videogegevens met meer dan 1 miljoen identiteiten om sterke generaliseerbare prioriën te leren; (ii) multi-view fine-tuning op een kleine maar hoogwaardige dataset van 360-graden opnames om geometrische getrouwheid en bewustzijn van extreme aanzichten te verbeteren; en (iii) optionele personalisatie die zich aanpast aan specifieke identiteiten voor maximale getrouwheid binnen 500 optimalisatiestappen. Uitgebreide experimenten tonen aan dat FFAvatar een nieuwe standaard zet voor identiteitsbehoud, geometrische consistentie en animatiegetrouwheid. Op de NeRSemble benchmark overtreft het de state-of-the-art LAM met een aanzienlijke PSNR-winst van 5,5. Bovendien maakt FFAvatar real-time implementatie mogelijk, waarbij avatars worden gereconstrueerd in 2 seconden zonder personalisatie en 10 seconden met personalisatie, terwijl het 49 FPS animatie ondersteunt op een enkele NVIDIA A100 GPU.

English

Avatar reconstruction has traditionally relied on per-subject optimization that requires hours of computation or on expensive preprocessing that limits scalability. We introduce FFAvatar, a generalizable feed-forward framework that reconstructs high-quality, animatable 3D Gaussian head avatars from few-shot unposed portrait images in seconds. FFAvatar fuses information from multiple source images into a unified canonical Gaussian representation through Multi-View Query-Former, which is animated via FLAME parameters predicted end-to-end directly from pixels, eliminating the overhead of offline FLAME extraction. We further propose a three-stage training curriculum that achieves both broad generalization and high-fidelity reconstruction: (i) scalable pretraining on extensive monocular video data with over 1M identities to learn strong generalizable priors; (ii) multi-view fine-tuning on a small but high-quality dataset of 360-degree captures to enhance geometric fidelity and extreme-view awareness; and (iii) optional personalization that adapts to specific identities for maximum fidelity within 500 optimization steps. Extensive experiments demonstrate that FFAvatar sets a new standard for identity preservation, geometric consistency, and animation fidelity. On the NeRSemble benchmark, it outperforms the state-of-the-art LAM by a substantial 5.5 PSNR gain. Furthermore, FFAvatar enables real-time deployment, reconstructing avatars in 2 seconds without personalization and 10 seconds with personalization, while supporting 49 FPS animation on a single NVIDIA A100 GPU.