Digitalización 3D de humanos a partir de una sola vista con modelos de reconstrucción a gran escala
Single-View 3D Human Digitalization with Large Reconstruction Models
January 22, 2024
Autores: Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung-Levy, Jimei Yang
cs.AI
Resumen
En este artículo, presentamos Human-LRM, un modelo de reconstrucción grande (Large Reconstruction Model) de una sola etapa y de avance directo, diseñado para predecir campos de radiancia neural (NeRF) humanos a partir de una sola imagen. Nuestro enfoque demuestra una notable adaptabilidad durante el entrenamiento utilizando extensos conjuntos de datos que incluyen escaneos 3D y capturas multivista. Además, para mejorar la aplicabilidad del modelo en escenarios del mundo real, especialmente con oclusiones, proponemos una estrategia novedosa que destila la reconstrucción multivista en una sola vista mediante un modelo de difusión de triplanos condicional. Esta extensión generativa aborda las variaciones inherentes en las formas del cuerpo humano cuando se observan desde una sola vista, y hace posible reconstruir el cuerpo humano completo a partir de una imagen ocluida. A través de experimentos exhaustivos, demostramos que Human-LRM supera a métodos anteriores por un margen significativo en varios puntos de referencia.
English
In this paper, we introduce Human-LRM, a single-stage feed-forward Large
Reconstruction Model designed to predict human Neural Radiance Fields (NeRF)
from a single image. Our approach demonstrates remarkable adaptability in
training using extensive datasets containing 3D scans and multi-view capture.
Furthermore, to enhance the model's applicability for in-the-wild scenarios
especially with occlusions, we propose a novel strategy that distills
multi-view reconstruction into single-view via a conditional triplane diffusion
model. This generative extension addresses the inherent variations in human
body shapes when observed from a single view, and makes it possible to
reconstruct the full body human from an occluded image. Through extensive
experiments, we show that Human-LRM surpasses previous methods by a significant
margin on several benchmarks.