Digitalização 3D de Humanos a partir de uma Única Visão com Modelos de Reconstrução em Grande Escala
Single-View 3D Human Digitalization with Large Reconstruction Models
January 22, 2024
Autores: Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung-Levy, Jimei Yang
cs.AI
Resumo
Neste artigo, apresentamos o Human-LRM, um modelo de reconstrução em grande escala (Large Reconstruction Model) de estágio único e feed-forward projetado para prever Campos de Radiação Neural (NeRF) humanos a partir de uma única imagem. Nossa abordagem demonstra uma notável adaptabilidade no treinamento utilizando extensos conjuntos de dados que incluem varreduras 3D e capturas multi-visão. Além disso, para aprimorar a aplicabilidade do modelo em cenários do mundo real, especialmente com oclusões, propomos uma nova estratégia que destila a reconstrução multi-visão em uma única visão por meio de um modelo de difusão condicional de triplano. Essa extensão generativa aborda as variações inerentes nas formas do corpo humano quando observadas a partir de uma única visão, tornando possível reconstruir o corpo humano completo a partir de uma imagem ocluída. Através de experimentos extensivos, mostramos que o Human-LRM supera métodos anteriores por uma margem significativa em diversos benchmarks.
English
In this paper, we introduce Human-LRM, a single-stage feed-forward Large
Reconstruction Model designed to predict human Neural Radiance Fields (NeRF)
from a single image. Our approach demonstrates remarkable adaptability in
training using extensive datasets containing 3D scans and multi-view capture.
Furthermore, to enhance the model's applicability for in-the-wild scenarios
especially with occlusions, we propose a novel strategy that distills
multi-view reconstruction into single-view via a conditional triplane diffusion
model. This generative extension addresses the inherent variations in human
body shapes when observed from a single view, and makes it possible to
reconstruct the full body human from an occluded image. Through extensive
experiments, we show that Human-LRM surpasses previous methods by a significant
margin on several benchmarks.