FRESA: Reconstrucción por Avance de Avatares Personalizados con Esqueleto a partir de Pocas Imágenes
FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images
March 24, 2025
Autores: Rong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh
cs.AI
Resumen
Presentamos un método novedoso para reconstruir avatares 3D humanos personalizados con animación realista a partir de solo unas pocas imágenes. Debido a las grandes variaciones en formas corporales, poses y tipos de ropa, los métodos existentes generalmente requieren horas de optimización por sujeto durante la inferencia, lo que limita sus aplicaciones prácticas. En contraste, aprendemos un prior universal a partir de más de mil humanos vestidos para lograr una generación instantánea en modo feedforward y generalización zero-shot. Específicamente, en lugar de equipar el avatar con pesos de skinning compartidos, inferimos conjuntamente la forma del avatar personalizada, los pesos de skinning y las deformaciones dependientes de la pose, lo que mejora efectivamente la fidelidad geométrica general y reduce los artefactos de deformación. Además, para normalizar las variaciones de pose y resolver la ambigüedad acoplada entre las formas canónicas y los pesos de skinning, diseñamos un proceso de canonización 3D para producir condiciones iniciales alineadas por píxeles, lo que ayuda a reconstruir detalles geométricos finos. Luego proponemos una agregación de características multi-marco para reducir robustamente los artefactos introducidos en la canonización y fusionar un avatar plausible que preserve las identidades específicas de la persona. Finalmente, entrenamos el modelo en un marco end-to-end en un conjunto de datos de captura a gran escala, que contiene diversos sujetos humanos emparejados con escaneos 3D de alta calidad. Experimentos extensos muestran que nuestro método genera una reconstrucción y animación más auténticas que los métodos state-of-the-art, y puede generalizarse directamente a entradas de fotos tomadas casualmente con teléfonos. La página del proyecto y el código están disponibles en https://github.com/rongakowang/FRESA.
English
We present a novel method for reconstructing personalized 3D human avatars
with realistic animation from only a few images. Due to the large variations in
body shapes, poses, and cloth types, existing methods mostly require hours of
per-subject optimization during inference, which limits their practical
applications. In contrast, we learn a universal prior from over a thousand
clothed humans to achieve instant feedforward generation and zero-shot
generalization. Specifically, instead of rigging the avatar with shared
skinning weights, we jointly infer personalized avatar shape, skinning weights,
and pose-dependent deformations, which effectively improves overall geometric
fidelity and reduces deformation artifacts. Moreover, to normalize pose
variations and resolve coupled ambiguity between canonical shapes and skinning
weights, we design a 3D canonicalization process to produce pixel-aligned
initial conditions, which helps to reconstruct fine-grained geometric details.
We then propose a multi-frame feature aggregation to robustly reduce artifacts
introduced in canonicalization and fuse a plausible avatar preserving
person-specific identities. Finally, we train the model in an end-to-end
framework on a large-scale capture dataset, which contains diverse human
subjects paired with high-quality 3D scans. Extensive experiments show that our
method generates more authentic reconstruction and animation than
state-of-the-arts, and can be directly generalized to inputs from casually
taken phone photos. Project page and code is available at
https://github.com/rongakowang/FRESA.Summary
AI-Generated Summary