ChatPaper.aiChatPaper

Single-View 3D Menselijke Digitalisering met Grote Reconstructiemodellen

Single-View 3D Human Digitalization with Large Reconstruction Models

January 22, 2024
Auteurs: Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung-Levy, Jimei Yang
cs.AI

Samenvatting

In dit artikel introduceren we Human-LRM, een enkelstaps feed-forward Large Reconstruction Model dat is ontworpen om menselijke Neural Radiance Fields (NeRF) te voorspellen vanuit een enkele afbeelding. Onze aanpak toont opmerkelijke aanpassingsvermogen tijdens de training door gebruik te maken van uitgebreide datasets met 3D-scans en multi-view-opnames. Verder stellen we, om de toepasbaarheid van het model te vergroten in realistische scenario’s, vooral bij occlusies, een nieuwe strategie voor die multi-view-reconstructie distilleert naar single-view via een conditioneel triplane-diffusiemodel. Deze generatieve uitbreiding adresseert de inherente variaties in menselijke lichaamsvormen wanneer deze vanuit een enkel gezichtspunt worden waargenomen, en maakt het mogelijk om het volledige menselijke lichaam te reconstrueren vanuit een gedeeltelijk verhulde afbeelding. Door middel van uitgebreide experimenten tonen we aan dat Human-LRM eerdere methoden met een aanzienlijke marge overtreft op verschillende benchmarks.
English
In this paper, we introduce Human-LRM, a single-stage feed-forward Large Reconstruction Model designed to predict human Neural Radiance Fields (NeRF) from a single image. Our approach demonstrates remarkable adaptability in training using extensive datasets containing 3D scans and multi-view capture. Furthermore, to enhance the model's applicability for in-the-wild scenarios especially with occlusions, we propose a novel strategy that distills multi-view reconstruction into single-view via a conditional triplane diffusion model. This generative extension addresses the inherent variations in human body shapes when observed from a single view, and makes it possible to reconstruct the full body human from an occluded image. Through extensive experiments, we show that Human-LRM surpasses previous methods by a significant margin on several benchmarks.
PDF61December 15, 2024