Einzelansicht-3D-Digitalisierung des menschlichen Körpers mit großen Rekonstruktionsmodellen
Single-View 3D Human Digitalization with Large Reconstruction Models
January 22, 2024
Autoren: Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung-Levy, Jimei Yang
cs.AI
Zusammenfassung
In diesem Artikel stellen wir Human-LRM vor, ein einstufiges, vorwärtsgerichtetes Large Reconstruction Model, das darauf ausgelegt ist, menschliche Neural Radiance Fields (NeRF) aus einem einzelnen Bild vorherzusagen. Unser Ansatz zeigt eine bemerkenswerte Anpassungsfähigkeit beim Training mit umfangreichen Datensätzen, die 3D-Scans und Multi-View-Aufnahmen enthalten. Darüber hinaus schlagen wir eine neuartige Strategie vor, um die Anwendbarkeit des Modells für reale Szenarien, insbesondere bei Verdeckungen, zu verbessern. Diese Strategie destilliert Multi-View-Rekonstruktionen in eine Single-View-Rekonstruktion mittels eines bedingten Triplane-Diffusionsmodells. Diese generative Erweiterung adressiert die inhärenten Variationen in menschlichen Körperformen bei der Betrachtung aus einem einzelnen Blickwinkel und ermöglicht es, den gesamten Körper aus einem verdeckten Bild zu rekonstruieren. Durch umfangreiche Experimente zeigen wir, dass Human-LRM bisherige Methoden auf mehreren Benchmarks deutlich übertrifft.
English
In this paper, we introduce Human-LRM, a single-stage feed-forward Large
Reconstruction Model designed to predict human Neural Radiance Fields (NeRF)
from a single image. Our approach demonstrates remarkable adaptability in
training using extensive datasets containing 3D scans and multi-view capture.
Furthermore, to enhance the model's applicability for in-the-wild scenarios
especially with occlusions, we propose a novel strategy that distills
multi-view reconstruction into single-view via a conditional triplane diffusion
model. This generative extension addresses the inherent variations in human
body shapes when observed from a single view, and makes it possible to
reconstruct the full body human from an occluded image. Through extensive
experiments, we show that Human-LRM surpasses previous methods by a significant
margin on several benchmarks.