FFAvatar: малошотовая, прямого распространения и обобщаемая реконструкция аватаров

Аннотация

Реконструкция аватаров традиционно опиралась на поперсональную оптимизацию, требующую часов вычислений, либо на дорогостоящую предварительную обработку, ограничивающую масштабируемость. Мы представляем FFAvatar — обощающую архитектуру прямого распространения, которая восстанавливает высококачественные анимируемые головные аватары на основе гауссов из малого числа непозированных портретных изображений за секунды. FFAvatar объединяет информацию из нескольких исходных изображений в единое каноническое гауссово представление посредством Multi-View Query-Former, анимация которого осуществляется через параметры FLAME, предсказываемые сквозным образом непосредственно из пикселей, что устраняет издержки офлайн-извлечения FLAME. Мы также предлагаем трёхстадийный учебный курс, обеспечивающий как широкую обобщаемость, так и высокую точность реконструкции: (i) масштабируемое предварительное обучение на обширных данных моновидео с более чем 1 миллионом идентичностей для изучения сильных обобщаемых априорных знаний; (ii) многовидовая тонкая настройка на небольшом, но высококачественном наборе данных круговых захватов для повышения геометрической точности и осведомлённости об экстремальных ракурсах; и (iii) опциональная персонализация, адаптируемая под конкретные идентичности для максимальной точности в пределах 500 шагов оптимизации. Обширные эксперименты показывают, что FFAvatar устанавливает новый стандарт сохранения идентичности, геометрической согласованности и точности анимации. На эталоне NeRSemble он превосходит современный метод LAM с существенным приростом PSNR на 5,5. Кроме того, FFAvatar обеспечивает развёртывание в реальном времени, восстанавливая аватары за 2 секунды без персонализации и за 10 секунд с персонализацией, поддерживая анимацию со скоростью 49 кадров в секунду на одном GPU NVIDIA A100.

English

Avatar reconstruction has traditionally relied on per-subject optimization that requires hours of computation or on expensive preprocessing that limits scalability. We introduce FFAvatar, a generalizable feed-forward framework that reconstructs high-quality, animatable 3D Gaussian head avatars from few-shot unposed portrait images in seconds. FFAvatar fuses information from multiple source images into a unified canonical Gaussian representation through Multi-View Query-Former, which is animated via FLAME parameters predicted end-to-end directly from pixels, eliminating the overhead of offline FLAME extraction. We further propose a three-stage training curriculum that achieves both broad generalization and high-fidelity reconstruction: (i) scalable pretraining on extensive monocular video data with over 1M identities to learn strong generalizable priors; (ii) multi-view fine-tuning on a small but high-quality dataset of 360-degree captures to enhance geometric fidelity and extreme-view awareness; and (iii) optional personalization that adapts to specific identities for maximum fidelity within 500 optimization steps. Extensive experiments demonstrate that FFAvatar sets a new standard for identity preservation, geometric consistency, and animation fidelity. On the NeRSemble benchmark, it outperforms the state-of-the-art LAM by a substantial 5.5 PSNR gain. Furthermore, FFAvatar enables real-time deployment, reconstructing avatars in 2 seconds without personalization and 10 seconds with personalization, while supporting 49 FPS animation on a single NVIDIA A100 GPU.