Snap-Snap: Capturando Duas Imagens para Reconstruir Gaussianas Humanas 3D em Milissegundos

Resumo

A reconstrução de corpos humanos 3D a partir de visões esparsas tem sido um tópico atraente, sendo crucial para ampliar as aplicações relacionadas. Neste artigo, propomos uma tarefa bastante desafiadora, mas valiosa: reconstruir o corpo humano a partir de apenas duas imagens, ou seja, as vistas frontal e traseira, o que pode reduzir significativamente a barreira para os usuários criarem seus próprios humanos digitais 3D. Os principais desafios residem na dificuldade de construir consistência 3D e recuperar informações ausentes a partir de uma entrada altamente esparsa. Redesenhamos um modelo de reconstrução geométrica baseado em modelos de reconstrução fundamentais para prever nuvens de pontos consistentes, mesmo quando as imagens de entrada têm sobreposições escassas, com treinamento extensivo em dados humanos. Além disso, um algoritmo de aprimoramento é aplicado para complementar as informações de cor ausentes, e então as nuvens de pontos humanas completas com cores podem ser obtidas, que são diretamente transformadas em Gaussianas 3D para melhor qualidade de renderização. Experimentos mostram que nosso método pode reconstruir o corpo humano inteiro em 190 ms em uma única NVIDIA RTX 4090, com duas imagens em uma resolução de 1024x1024, demonstrando desempenho de ponta no conjunto de dados THuman2.0 e em conjuntos de dados de domínio cruzado. Adicionalmente, nosso método pode completar a reconstrução humana mesmo com imagens capturadas por dispositivos móveis de baixo custo, reduzindo os requisitos para coleta de dados. Demonstrações e código estão disponíveis em https://hustvl.github.io/Snap-Snap/.

English

Reconstructing 3D human bodies from sparse views has been an appealing topic, which is crucial to broader the related applications. In this paper, we propose a quite challenging but valuable task to reconstruct the human body from only two images, i.e., the front and back view, which can largely lower the barrier for users to create their own 3D digital humans. The main challenges lie in the difficulty of building 3D consistency and recovering missing information from the highly sparse input. We redesign a geometry reconstruction model based on foundation reconstruction models to predict consistent point clouds even input images have scarce overlaps with extensive human data training. Furthermore, an enhancement algorithm is applied to supplement the missing color information, and then the complete human point clouds with colors can be obtained, which are directly transformed into 3D Gaussians for better rendering quality. Experiments show that our method can reconstruct the entire human in 190 ms on a single NVIDIA RTX 4090, with two images at a resolution of 1024x1024, demonstrating state-of-the-art performance on the THuman2.0 and cross-domain datasets. Additionally, our method can complete human reconstruction even with images captured by low-cost mobile devices, reducing the requirements for data collection. Demos and code are available at https://hustvl.github.io/Snap-Snap/.

Snap-Snap: Capturando Duas Imagens para Reconstruir Gaussianas Humanas 3D em Milissegundos

Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds

Resumo

Support