ChatPaper.aiChatPaper

LHM: 단일 이미지로부터 초 단위로 애니메이션 가능한 대형 인간 모델 재구성

LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

March 13, 2025
저자: Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo
cs.AI

초록

단일 이미지로부터 애니메이션 가능한 3D 인간 모델을 재구성하는 것은 기하학적 구조, 외관, 변형을 분리하는 데 있어 모호성으로 인해 어려운 문제입니다. 최근 3D 인간 재구성 분야의 발전은 주로 정적 인간 모델링에 초점을 맞추고 있으며, 합성 3D 스캔 데이터에 의존한 학습 방식은 일반화 능력을 제한합니다. 반면, 최적화 기반 비디오 방법은 더 높은 정확도를 달성하지만 제어된 촬영 조건과 계산 집약적인 정제 과정을 요구합니다. 효율적인 정적 재구성을 위한 대규모 재구성 모델의 등장에 영감을 받아, 우리는 LHM(Large Animatable Human Reconstruction Model)을 제안하여 피드포워드 방식으로 3D 가우시안 스플래팅으로 표현된 고정밀 아바타를 추론합니다. 우리의 모델은 멀티모달 트랜스포머 아키텍처를 활용하여 인간 신체의 위치 특성과 이미지 특성을 주의 메커니즘을 통해 효과적으로 인코딩함으로써 의복의 기하학적 구조와 텍스처를 상세하게 보존합니다. 또한, 얼굴 정체성 보존과 미세한 디테일 복원을 강화하기 위해, 우리는 머리 영역의 다중 스케일 특성을 집계하는 헤드 피라미드 인코딩 기법을 제안합니다. 광범위한 실험을 통해 우리의 LHM이 얼굴과 손에 대한 후처리 없이도 몇 초 내에 그럴듯한 애니메이션 가능한 인간 모델을 생성하며, 재구성 정확도와 일반화 능력 모두에서 기존 방법을 능가함을 입증했습니다.
English
Animatable 3D human reconstruction from a single image is a challenging problem due to the ambiguity in decoupling geometry, appearance, and deformation. Recent advances in 3D human reconstruction mainly focus on static human modeling, and the reliance of using synthetic 3D scans for training limits their generalization ability. Conversely, optimization-based video methods achieve higher fidelity but demand controlled capture conditions and computationally intensive refinement processes. Motivated by the emergence of large reconstruction models for efficient static reconstruction, we propose LHM (Large Animatable Human Reconstruction Model) to infer high-fidelity avatars represented as 3D Gaussian splatting in a feed-forward pass. Our model leverages a multimodal transformer architecture to effectively encode the human body positional features and image features with attention mechanism, enabling detailed preservation of clothing geometry and texture. To further boost the face identity preservation and fine detail recovery, we propose a head feature pyramid encoding scheme to aggregate multi-scale features of the head regions. Extensive experiments demonstrate that our LHM generates plausible animatable human in seconds without post-processing for face and hands, outperforming existing methods in both reconstruction accuracy and generalization ability.

Summary

AI-Generated Summary

PDF325March 21, 2025