LHM: Масштабируемая модель реконструкции анимируемого человека по одному изображению за несколько секунд
LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds
March 13, 2025
Авторы: Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo
cs.AI
Аннотация
Реконструкция анимируемых 3D-моделей человека из одного изображения представляет собой сложную задачу из-за неоднозначности разделения геометрии, внешнего вида и деформации. Современные достижения в области 3D-реконструкции человека в основном сосредоточены на статическом моделировании, а зависимость от использования синтетических 3D-сканов для обучения ограничивает их способность к обобщению. С другой стороны, оптимизационные методы, основанные на видео, достигают более высокой точности, но требуют контролируемых условий съемки и вычислительно затратных процессов уточнения. Вдохновленные появлением крупных моделей реконструкции для эффективного статического восстановления, мы предлагаем LHM (Large Animatable Human Reconstruction Model) для вывода высококачественных аватаров, представленных в виде 3D-гауссовых сплатов, за один прямой проход. Наша модель использует мультимодальную трансформерную архитектуру для эффективного кодирования позиционных признаков тела человека и признаков изображения с помощью механизма внимания, что позволяет детально сохранять геометрию и текстуру одежды. Для дальнейшего улучшения сохранения идентичности лица и восстановления мелких деталей мы предлагаем схему кодирования пирамиды признаков головы, которая агрегирует многоуровневые признаки областей головы. Многочисленные эксперименты демонстрируют, что наш LHM генерирует правдоподобные анимируемые модели человека за секунды без постобработки для лица и рук, превосходя существующие методы как по точности реконструкции, так и по способности к обобщению.
English
Animatable 3D human reconstruction from a single image is a challenging
problem due to the ambiguity in decoupling geometry, appearance, and
deformation. Recent advances in 3D human reconstruction mainly focus on static
human modeling, and the reliance of using synthetic 3D scans for training
limits their generalization ability. Conversely, optimization-based video
methods achieve higher fidelity but demand controlled capture conditions and
computationally intensive refinement processes. Motivated by the emergence of
large reconstruction models for efficient static reconstruction, we propose LHM
(Large Animatable Human Reconstruction Model) to infer high-fidelity avatars
represented as 3D Gaussian splatting in a feed-forward pass. Our model
leverages a multimodal transformer architecture to effectively encode the human
body positional features and image features with attention mechanism, enabling
detailed preservation of clothing geometry and texture. To further boost the
face identity preservation and fine detail recovery, we propose a head feature
pyramid encoding scheme to aggregate multi-scale features of the head regions.
Extensive experiments demonstrate that our LHM generates plausible animatable
human in seconds without post-processing for face and hands, outperforming
existing methods in both reconstruction accuracy and generalization ability.Summary
AI-Generated Summary