LHM : Modèle de reconstruction d'humains animables à grande échelle à partir d'une seule image en quelques secondes
LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds
March 13, 2025
Auteurs: Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo
cs.AI
Résumé
La reconstruction animable d'humains en 3D à partir d'une seule image est un problème complexe en raison de l'ambiguïté dans la séparation de la géométrie, de l'apparence et de la déformation. Les avancées récentes en reconstruction 3D humaine se concentrent principalement sur la modélisation statique, et la dépendance à l'utilisation de scans 3D synthétiques pour l'entraînement limite leur capacité de généralisation. À l'inverse, les méthodes basées sur l'optimisation à partir de vidéos atteignent une fidélité plus élevée, mais nécessitent des conditions de capture contrôlées et des processus de raffinement intensifs en calcul. Motivés par l'émergence de modèles de reconstruction à grande échelle pour une reconstruction statique efficace, nous proposons LHM (Large Animatable Human Reconstruction Model) pour inférer des avatars haute fidélité représentés par un splatting de Gaussiennes 3D en une passe directe. Notre modèle exploite une architecture de transformateur multimodal pour encoder efficacement les caractéristiques positionnelles du corps humain et les caractéristiques de l'image grâce à un mécanisme d'attention, permettant une préservation détaillée de la géométrie et de la texture des vêtements. Pour renforcer la préservation de l'identité faciale et la récupération des détails fins, nous proposons un schéma d'encodage pyramidal des caractéristiques de la tête pour agréger les caractéristiques multi-échelles des régions de la tête. Des expériences approfondies démontrent que notre LHM génère des humains animables plausibles en quelques secondes sans post-traitement pour le visage et les mains, surpassant les méthodes existantes en termes de précision de reconstruction et de capacité de généralisation.
English
Animatable 3D human reconstruction from a single image is a challenging
problem due to the ambiguity in decoupling geometry, appearance, and
deformation. Recent advances in 3D human reconstruction mainly focus on static
human modeling, and the reliance of using synthetic 3D scans for training
limits their generalization ability. Conversely, optimization-based video
methods achieve higher fidelity but demand controlled capture conditions and
computationally intensive refinement processes. Motivated by the emergence of
large reconstruction models for efficient static reconstruction, we propose LHM
(Large Animatable Human Reconstruction Model) to infer high-fidelity avatars
represented as 3D Gaussian splatting in a feed-forward pass. Our model
leverages a multimodal transformer architecture to effectively encode the human
body positional features and image features with attention mechanism, enabling
detailed preservation of clothing geometry and texture. To further boost the
face identity preservation and fine detail recovery, we propose a head feature
pyramid encoding scheme to aggregate multi-scale features of the head regions.
Extensive experiments demonstrate that our LHM generates plausible animatable
human in seconds without post-processing for face and hands, outperforming
existing methods in both reconstruction accuracy and generalization ability.Summary
AI-Generated Summary