ChatPaper.aiChatPaper

LHM: Groot Animeerbaar Menselijk Reconstructiemodel vanuit één Afbeelding in Seconden

LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

March 13, 2025
Auteurs: Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo
cs.AI

Samenvatting

Het reconstrueren van animeerbare 3D-menselijke modellen vanuit een enkele afbeelding is een uitdagend probleem vanwege de ambiguïteit in het ontkoppelen van geometrie, uiterlijk en vervorming. Recente vooruitgang in 3D-menselijke reconstructie richt zich voornamelijk op statische menselijke modellering, en de afhankelijkheid van synthetische 3D-scans voor training beperkt hun generalisatievermogen. Daarentegen behalen op optimalisatie gebaseerde videomethoden een hogere nauwkeurigheid, maar vereisen ze gecontroleerde opnameomstandigheden en rekenintensieve verfijningsprocessen. Geïnspireerd door de opkomst van grote reconstructiemodellen voor efficiënte statische reconstructie, stellen we LHM (Large Animatable Human Reconstruction Model) voor om hoogwaardige avatars, gerepresenteerd als 3D Gaussian splatting, in één voorwaartse pass te infereren. Ons model maakt gebruik van een multimodale transformer-architectuur om de positionele kenmerken van het menselijk lichaam en beeldkenmerken effectief te coderen met een aandachtmechanisme, waardoor gedetailleerde behoud van kledinggeometrie en textuur mogelijk wordt. Om het behoud van gezichtsidentiteit en het herstel van fijne details verder te verbeteren, stellen we een hoofdkenmerkpiramide-coderingsschema voor om multi-schaalkenmerken van de hoofdregio's te aggregeren. Uitgebreide experimenten tonen aan dat onze LHM binnen enkele seconden plausibele animeerbare menselijke modellen genereert zonder nabewerking voor gezicht en handen, en daarbij bestaande methoden overtreft in zowel reconstructienauwkeurigheid als generalisatievermogen.
English
Animatable 3D human reconstruction from a single image is a challenging problem due to the ambiguity in decoupling geometry, appearance, and deformation. Recent advances in 3D human reconstruction mainly focus on static human modeling, and the reliance of using synthetic 3D scans for training limits their generalization ability. Conversely, optimization-based video methods achieve higher fidelity but demand controlled capture conditions and computationally intensive refinement processes. Motivated by the emergence of large reconstruction models for efficient static reconstruction, we propose LHM (Large Animatable Human Reconstruction Model) to infer high-fidelity avatars represented as 3D Gaussian splatting in a feed-forward pass. Our model leverages a multimodal transformer architecture to effectively encode the human body positional features and image features with attention mechanism, enabling detailed preservation of clothing geometry and texture. To further boost the face identity preservation and fine detail recovery, we propose a head feature pyramid encoding scheme to aggregate multi-scale features of the head regions. Extensive experiments demonstrate that our LHM generates plausible animatable human in seconds without post-processing for face and hands, outperforming existing methods in both reconstruction accuracy and generalization ability.

Summary

AI-Generated Summary

PDF325March 21, 2025