ChatPaper.aiChatPaper

Digitalização 3D de Humanos a partir de uma Única Visão com Modelos de Reconstrução em Grande Escala

Single-View 3D Human Digitalization with Large Reconstruction Models

January 22, 2024
Autores: Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung-Levy, Jimei Yang
cs.AI

Resumo

Neste artigo, apresentamos o Human-LRM, um modelo de reconstrução em grande escala (Large Reconstruction Model) de estágio único e feed-forward projetado para prever Campos de Radiação Neural (NeRF) humanos a partir de uma única imagem. Nossa abordagem demonstra uma notável adaptabilidade no treinamento utilizando extensos conjuntos de dados que incluem varreduras 3D e capturas multi-visão. Além disso, para aprimorar a aplicabilidade do modelo em cenários do mundo real, especialmente com oclusões, propomos uma nova estratégia que destila a reconstrução multi-visão em uma única visão por meio de um modelo de difusão condicional de triplano. Essa extensão generativa aborda as variações inerentes nas formas do corpo humano quando observadas a partir de uma única visão, tornando possível reconstruir o corpo humano completo a partir de uma imagem ocluída. Através de experimentos extensivos, mostramos que o Human-LRM supera métodos anteriores por uma margem significativa em diversos benchmarks.
English
In this paper, we introduce Human-LRM, a single-stage feed-forward Large Reconstruction Model designed to predict human Neural Radiance Fields (NeRF) from a single image. Our approach demonstrates remarkable adaptability in training using extensive datasets containing 3D scans and multi-view capture. Furthermore, to enhance the model's applicability for in-the-wild scenarios especially with occlusions, we propose a novel strategy that distills multi-view reconstruction into single-view via a conditional triplane diffusion model. This generative extension addresses the inherent variations in human body shapes when observed from a single view, and makes it possible to reconstruct the full body human from an occluded image. Through extensive experiments, we show that Human-LRM surpasses previous methods by a significant margin on several benchmarks.
PDF61December 15, 2024