ChatPaper.aiChatPaper

Numérisation 3D humaine à partir d'une seule vue avec des modèles de reconstruction à grande échelle

Single-View 3D Human Digitalization with Large Reconstruction Models

January 22, 2024
Auteurs: Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung-Levy, Jimei Yang
cs.AI

Résumé

Dans cet article, nous présentons Human-LRM, un modèle de reconstruction à grande échelle (Large Reconstruction Model) à une seule étape et à propagation directe, conçu pour prédire les champs de radiance neuronaux (Neural Radiance Fields, NeRF) humains à partir d'une seule image. Notre approche démontre une adaptabilité remarquable lors de l'entraînement en utilisant des ensembles de données étendus contenant des scans 3D et des captures multi-vues. De plus, pour améliorer l'applicabilité du modèle dans des scénarios en conditions réelles, notamment en présence d'occlusions, nous proposons une nouvelle stratégie qui distille la reconstruction multi-vues en une vue unique via un modèle de diffusion conditionnel à triplan. Cette extension générative aborde les variations inhérentes aux formes du corps humain lorsqu'elles sont observées sous un seul angle, et permet de reconstruire le corps humain entier à partir d'une image occluse. À travers des expériences approfondies, nous montrons que Human-LRM surpasse de manière significative les méthodes précédentes sur plusieurs benchmarks.
English
In this paper, we introduce Human-LRM, a single-stage feed-forward Large Reconstruction Model designed to predict human Neural Radiance Fields (NeRF) from a single image. Our approach demonstrates remarkable adaptability in training using extensive datasets containing 3D scans and multi-view capture. Furthermore, to enhance the model's applicability for in-the-wild scenarios especially with occlusions, we propose a novel strategy that distills multi-view reconstruction into single-view via a conditional triplane diffusion model. This generative extension addresses the inherent variations in human body shapes when observed from a single view, and makes it possible to reconstruct the full body human from an occluded image. Through extensive experiments, we show that Human-LRM surpasses previous methods by a significant margin on several benchmarks.
PDF61December 15, 2024