ChatPaper.aiChatPaper

FFAvatar: малошотовая, прямого распространения и обобщаемая реконструкция аватаров

FFAvatar: Few-Shot, Feed-Forward, and Generalizable Avatar Reconstruction

May 14, 2026
Авторы: Thuan Hoang Nguyen, Jiahao Luo, Yinyu Nie, Hao Li, Gordon Guocheng Qian, Jian Wang
cs.AI

Аннотация

Реконструкция аватаров традиционно опиралась на поперсональную оптимизацию, требующую часов вычислений, либо на дорогостоящую предварительную обработку, ограничивающую масштабируемость. Мы представляем FFAvatar — обощающую архитектуру прямого распространения, которая восстанавливает высококачественные анимируемые головные аватары на основе гауссов из малого числа непозированных портретных изображений за секунды. FFAvatar объединяет информацию из нескольких исходных изображений в единое каноническое гауссово представление посредством Multi-View Query-Former, анимация которого осуществляется через параметры FLAME, предсказываемые сквозным образом непосредственно из пикселей, что устраняет издержки офлайн-извлечения FLAME. Мы также предлагаем трёхстадийный учебный курс, обеспечивающий как широкую обобщаемость, так и высокую точность реконструкции: (i) масштабируемое предварительное обучение на обширных данных моновидео с более чем 1 миллионом идентичностей для изучения сильных обобщаемых априорных знаний; (ii) многовидовая тонкая настройка на небольшом, но высококачественном наборе данных круговых захватов для повышения геометрической точности и осведомлённости об экстремальных ракурсах; и (iii) опциональная персонализация, адаптируемая под конкретные идентичности для максимальной точности в пределах 500 шагов оптимизации. Обширные эксперименты показывают, что FFAvatar устанавливает новый стандарт сохранения идентичности, геометрической согласованности и точности анимации. На эталоне NeRSemble он превосходит современный метод LAM с существенным приростом PSNR на 5,5. Кроме того, FFAvatar обеспечивает развёртывание в реальном времени, восстанавливая аватары за 2 секунды без персонализации и за 10 секунд с персонализацией, поддерживая анимацию со скоростью 49 кадров в секунду на одном GPU NVIDIA A100.
English
Avatar reconstruction has traditionally relied on per-subject optimization that requires hours of computation or on expensive preprocessing that limits scalability. We introduce FFAvatar, a generalizable feed-forward framework that reconstructs high-quality, animatable 3D Gaussian head avatars from few-shot unposed portrait images in seconds. FFAvatar fuses information from multiple source images into a unified canonical Gaussian representation through Multi-View Query-Former, which is animated via FLAME parameters predicted end-to-end directly from pixels, eliminating the overhead of offline FLAME extraction. We further propose a three-stage training curriculum that achieves both broad generalization and high-fidelity reconstruction: (i) scalable pretraining on extensive monocular video data with over 1M identities to learn strong generalizable priors; (ii) multi-view fine-tuning on a small but high-quality dataset of 360-degree captures to enhance geometric fidelity and extreme-view awareness; and (iii) optional personalization that adapts to specific identities for maximum fidelity within 500 optimization steps. Extensive experiments demonstrate that FFAvatar sets a new standard for identity preservation, geometric consistency, and animation fidelity. On the NeRSemble benchmark, it outperforms the state-of-the-art LAM by a substantial 5.5 PSNR gain. Furthermore, FFAvatar enables real-time deployment, reconstructing avatars in 2 seconds without personalization and 10 seconds with personalization, while supporting 49 FPS animation on a single NVIDIA A100 GPU.