ChatPaper.aiChatPaper

FRESA : Reconstruction par propagation avant d'avatars personnalisés avec squelette à partir de quelques images

FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images

March 24, 2025
Auteurs: Rong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh
cs.AI

Résumé

Nous présentons une nouvelle méthode pour reconstruire des avatars humains 3D personnalisés avec des animations réalistes à partir de seulement quelques images. En raison des grandes variations de formes corporelles, de poses et de types de vêtements, les méthodes existantes nécessitent généralement des heures d'optimisation par sujet lors de l'inférence, ce qui limite leurs applications pratiques. En revanche, nous apprenons un a priori universel à partir de plus d'un millier d'humains habillés pour parvenir à une génération instantanée en feedforward et à une généralisation zero-shot. Plus précisément, au lieu de rigger l'avatar avec des poids de skinning partagés, nous inférons conjointement la forme personnalisée de l'avatar, les poids de skinning et les déformations dépendantes de la pose, ce qui améliore efficacement la fidélité géométrique globale et réduit les artefacts de déformation. De plus, pour normaliser les variations de pose et résoudre l'ambiguïté couplée entre les formes canoniques et les poids de skinning, nous concevons un processus de canonicalisation 3D pour produire des conditions initiales alignées au pixel, ce qui aide à reconstruire des détails géométriques fins. Nous proposons ensuite une agrégation de caractéristiques multi-images pour réduire robustement les artefacts introduits lors de la canonicalisation et fusionner un avatar plausible préservant les identités spécifiques à la personne. Enfin, nous entraînons le modèle dans un cadre end-to-end sur un jeu de données de capture à grande échelle, qui contient des sujets humains diversifiés associés à des scans 3D de haute qualité. Des expériences approfondies montrent que notre méthode génère des reconstructions et des animations plus authentiques que les méthodes de pointe, et peut être directement généralisée à des entrées provenant de photos prises au hasard avec un téléphone. La page du projet et le code sont disponibles à l'adresse https://github.com/rongakowang/FRESA.
English
We present a novel method for reconstructing personalized 3D human avatars with realistic animation from only a few images. Due to the large variations in body shapes, poses, and cloth types, existing methods mostly require hours of per-subject optimization during inference, which limits their practical applications. In contrast, we learn a universal prior from over a thousand clothed humans to achieve instant feedforward generation and zero-shot generalization. Specifically, instead of rigging the avatar with shared skinning weights, we jointly infer personalized avatar shape, skinning weights, and pose-dependent deformations, which effectively improves overall geometric fidelity and reduces deformation artifacts. Moreover, to normalize pose variations and resolve coupled ambiguity between canonical shapes and skinning weights, we design a 3D canonicalization process to produce pixel-aligned initial conditions, which helps to reconstruct fine-grained geometric details. We then propose a multi-frame feature aggregation to robustly reduce artifacts introduced in canonicalization and fuse a plausible avatar preserving person-specific identities. Finally, we train the model in an end-to-end framework on a large-scale capture dataset, which contains diverse human subjects paired with high-quality 3D scans. Extensive experiments show that our method generates more authentic reconstruction and animation than state-of-the-arts, and can be directly generalized to inputs from casually taken phone photos. Project page and code is available at https://github.com/rongakowang/FRESA.

Summary

AI-Generated Summary

PDF42March 26, 2025