ChatPaper.aiChatPaper

LHM: Modelo de Reconstrução de Humanos Animáveis em Grande Escala a partir de uma Única Imagem em Segundos

LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

March 13, 2025
Autores: Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo
cs.AI

Resumo

A reconstrução animável de humanos 3D a partir de uma única imagem é um problema desafiador devido à ambiguidade na separação de geometria, aparência e deformação. Avanços recentes na reconstrução 3D de humanos concentram-se principalmente na modelagem estática, e a dependência de usar varreduras 3D sintéticas para treinamento limita sua capacidade de generalização. Por outro lado, métodos baseados em otimização para vídeos alcançam maior fidelidade, mas exigem condições controladas de captura e processos de refinamento computacionalmente intensivos. Motivados pelo surgimento de grandes modelos de reconstrução para reconstrução estática eficiente, propomos o LHM (Large Animatable Human Reconstruction Model) para inferir avatares de alta fidelidade representados como splatting de Gaussianas 3D em uma passagem direta. Nosso modelo aproveita uma arquitetura de transformer multimodal para codificar efetivamente as características posicionais do corpo humano e as características da imagem com mecanismo de atenção, permitindo a preservação detalhada da geometria e textura das roupas. Para aprimorar ainda mais a preservação da identidade facial e a recuperação de detalhes finos, propomos um esquema de codificação de pirâmide de características da cabeça para agregar características multiescala das regiões da cabeça. Experimentos extensivos demonstram que nosso LHM gera humanos animáveis plausíveis em segundos sem pós-processamento para rosto e mãos, superando métodos existentes tanto em precisão de reconstrução quanto em capacidade de generalização.
English
Animatable 3D human reconstruction from a single image is a challenging problem due to the ambiguity in decoupling geometry, appearance, and deformation. Recent advances in 3D human reconstruction mainly focus on static human modeling, and the reliance of using synthetic 3D scans for training limits their generalization ability. Conversely, optimization-based video methods achieve higher fidelity but demand controlled capture conditions and computationally intensive refinement processes. Motivated by the emergence of large reconstruction models for efficient static reconstruction, we propose LHM (Large Animatable Human Reconstruction Model) to infer high-fidelity avatars represented as 3D Gaussian splatting in a feed-forward pass. Our model leverages a multimodal transformer architecture to effectively encode the human body positional features and image features with attention mechanism, enabling detailed preservation of clothing geometry and texture. To further boost the face identity preservation and fine detail recovery, we propose a head feature pyramid encoding scheme to aggregate multi-scale features of the head regions. Extensive experiments demonstrate that our LHM generates plausible animatable human in seconds without post-processing for face and hands, outperforming existing methods in both reconstruction accuracy and generalization ability.

Summary

AI-Generated Summary

PDF325March 21, 2025