LHM: Modelo de Reconstrucción de Humanos Animables a Gran Escala a partir de una Única Imagen en Segundos
LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds
March 13, 2025
Autores: Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo
cs.AI
Resumen
La reconstrucción animable de humanos en 3D a partir de una sola imagen es un problema desafiante debido a la ambigüedad en la separación de la geometría, la apariencia y la deformación. Los avances recientes en la reconstrucción 3D de humanos se centran principalmente en el modelado estático, y la dependencia del uso de escaneos 3D sintéticos para el entrenamiento limita su capacidad de generalización. Por el contrario, los métodos basados en optimización para vídeo logran una mayor fidelidad, pero requieren condiciones de captura controladas y procesos de refinamiento computacionalmente intensivos. Motivados por el surgimiento de modelos de reconstrucción a gran escala para una reconstrucción estática eficiente, proponemos LHM (Modelo de Reconstrucción Animable de Humanos a Gran Escala) para inferir avatares de alta fidelidad representados como splatting de Gaussianas 3D en un paso de avance. Nuestro modelo aprovecha una arquitectura de transformador multimodal para codificar eficazmente las características posicionales del cuerpo humano y las características de la imagen mediante un mecanismo de atención, permitiendo la preservación detallada de la geometría y la textura de la ropa. Para mejorar aún más la preservación de la identidad facial y la recuperación de detalles finos, proponemos un esquema de codificación de pirámide de características de la cabeza para agregar características multiescala de las regiones de la cabeza. Experimentos exhaustivos demuestran que nuestro LHM genera humanos animables plausibles en segundos sin postprocesamiento para la cara y las manos, superando a los métodos existentes tanto en precisión de reconstrucción como en capacidad de generalización.
English
Animatable 3D human reconstruction from a single image is a challenging
problem due to the ambiguity in decoupling geometry, appearance, and
deformation. Recent advances in 3D human reconstruction mainly focus on static
human modeling, and the reliance of using synthetic 3D scans for training
limits their generalization ability. Conversely, optimization-based video
methods achieve higher fidelity but demand controlled capture conditions and
computationally intensive refinement processes. Motivated by the emergence of
large reconstruction models for efficient static reconstruction, we propose LHM
(Large Animatable Human Reconstruction Model) to infer high-fidelity avatars
represented as 3D Gaussian splatting in a feed-forward pass. Our model
leverages a multimodal transformer architecture to effectively encode the human
body positional features and image features with attention mechanism, enabling
detailed preservation of clothing geometry and texture. To further boost the
face identity preservation and fine detail recovery, we propose a head feature
pyramid encoding scheme to aggregate multi-scale features of the head regions.
Extensive experiments demonstrate that our LHM generates plausible animatable
human in seconds without post-processing for face and hands, outperforming
existing methods in both reconstruction accuracy and generalization ability.Summary
AI-Generated Summary