ChatPaper.aiChatPaper

FRESA: Reconstrução Feedforward de Avatares Personalizados com Esqueleto a partir de Poucas Imagens

FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images

March 24, 2025
Autores: Rong Wang, Fabian Prada, Ziyan Wang, Zhongshi Jiang, Chengxiang Yin, Junxuan Li, Shunsuke Saito, Igor Santesteban, Javier Romero, Rohan Joshi, Hongdong Li, Jason Saragih, Yaser Sheikh
cs.AI

Resumo

Apresentamos um método inovador para reconstruir avatares humanos 3D personalizados com animação realista a partir de apenas algumas imagens. Devido às grandes variações em formas corporais, poses e tipos de roupas, os métodos existentes geralmente exigem horas de otimização por sujeito durante a inferência, o que limita suas aplicações práticas. Em contraste, aprendemos um prior universal a partir de mais de mil humanos vestidos para alcançar geração instantânea em feedforward e generalização zero-shot. Especificamente, em vez de equipar o avatar com pesos de skinning compartilhados, inferimos conjuntamente a forma do avatar personalizado, os pesos de skinning e as deformações dependentes da pose, o que efetivamente melhora a fidelidade geométrica geral e reduz artefatos de deformação. Além disso, para normalizar as variações de pose e resolver a ambiguidade acoplada entre formas canônicas e pesos de skinning, projetamos um processo de canonização 3D para produzir condições iniciais alinhadas por pixel, o que ajuda a reconstruir detalhes geométricos refinados. Em seguida, propomos uma agregação de características multiframe para reduzir robustamente os artefatos introduzidos na canonização e fundir um avatar plausível que preserva identidades pessoais específicas. Por fim, treinamos o modelo em um framework end-to-end em um grande conjunto de dados de captura, que contém diversos sujeitos humanos emparelhados com varreduras 3D de alta qualidade. Experimentos extensivos mostram que nosso método gera reconstrução e animação mais autênticas do que os state-of-the-arts, e pode ser diretamente generalizado para entradas de fotos tiradas casualmente com telefones. A página do projeto e o código estão disponíveis em https://github.com/rongakowang/FRESA.
English
We present a novel method for reconstructing personalized 3D human avatars with realistic animation from only a few images. Due to the large variations in body shapes, poses, and cloth types, existing methods mostly require hours of per-subject optimization during inference, which limits their practical applications. In contrast, we learn a universal prior from over a thousand clothed humans to achieve instant feedforward generation and zero-shot generalization. Specifically, instead of rigging the avatar with shared skinning weights, we jointly infer personalized avatar shape, skinning weights, and pose-dependent deformations, which effectively improves overall geometric fidelity and reduces deformation artifacts. Moreover, to normalize pose variations and resolve coupled ambiguity between canonical shapes and skinning weights, we design a 3D canonicalization process to produce pixel-aligned initial conditions, which helps to reconstruct fine-grained geometric details. We then propose a multi-frame feature aggregation to robustly reduce artifacts introduced in canonicalization and fuse a plausible avatar preserving person-specific identities. Finally, we train the model in an end-to-end framework on a large-scale capture dataset, which contains diverse human subjects paired with high-quality 3D scans. Extensive experiments show that our method generates more authentic reconstruction and animation than state-of-the-arts, and can be directly generalized to inputs from casually taken phone photos. Project page and code is available at https://github.com/rongakowang/FRESA.

Summary

AI-Generated Summary

PDF42March 26, 2025