LHM: Modello di Ricostruzione Umana Animabile su Grande Scala da una Singola Immagine in Secondi
LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds
March 13, 2025
Autori: Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo
cs.AI
Abstract
La ricostruzione animabile 3D di esseri umani da una singola immagine rappresenta una sfida significativa a causa dell'ambiguità nel separare geometria, aspetto e deformazione. I recenti progressi nella ricostruzione 3D umana si concentrano principalmente sulla modellazione statica, e la dipendenza dall'uso di scansioni 3D sintetiche per l'addestramento limita la loro capacità di generalizzazione. Al contrario, i metodi basati sull'ottimizzazione di video raggiungono una fedeltà maggiore, ma richiedono condizioni di acquisizione controllate e processi di raffinamento computazionalmente intensivi. Ispirati dall'emergere di modelli di ricostruzione su larga scala per una ricostruzione statica efficiente, proponiamo LHM (Large Animatable Human Reconstruction Model) per inferire avatar ad alta fedeltà rappresentati come 3D Gaussian splatting in un passaggio feed-forward. Il nostro modello sfrutta un'architettura transformer multimodale per codificare efficacemente le caratteristiche posizionali del corpo umano e le caratteristiche dell'immagine con un meccanismo di attenzione, consentendo la conservazione dettagliata della geometria e della texture degli indumenti. Per migliorare ulteriormente la conservazione dell'identità del volto e il recupero dei dettagli fini, proponiamo uno schema di codifica a piramide delle caratteristiche della testa per aggregare le caratteristiche multi-scala delle regioni della testa. Esperimenti estesi dimostrano che il nostro LHM genera esseri umani animabili plausibili in pochi secondi senza post-elaborazione per volto e mani, superando i metodi esistenti sia in termini di accuratezza di ricostruzione che di capacità di generalizzazione.
English
Animatable 3D human reconstruction from a single image is a challenging
problem due to the ambiguity in decoupling geometry, appearance, and
deformation. Recent advances in 3D human reconstruction mainly focus on static
human modeling, and the reliance of using synthetic 3D scans for training
limits their generalization ability. Conversely, optimization-based video
methods achieve higher fidelity but demand controlled capture conditions and
computationally intensive refinement processes. Motivated by the emergence of
large reconstruction models for efficient static reconstruction, we propose LHM
(Large Animatable Human Reconstruction Model) to infer high-fidelity avatars
represented as 3D Gaussian splatting in a feed-forward pass. Our model
leverages a multimodal transformer architecture to effectively encode the human
body positional features and image features with attention mechanism, enabling
detailed preservation of clothing geometry and texture. To further boost the
face identity preservation and fine detail recovery, we propose a head feature
pyramid encoding scheme to aggregate multi-scale features of the head regions.
Extensive experiments demonstrate that our LHM generates plausible animatable
human in seconds without post-processing for face and hands, outperforming
existing methods in both reconstruction accuracy and generalization ability.Summary
AI-Generated Summary