Snap-Snap: Capturando Duas Imagens para Reconstruir Gaussianas Humanas 3D em Milissegundos
Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds
August 20, 2025
Autores: Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang
cs.AI
Resumo
A reconstrução de corpos humanos 3D a partir de visões esparsas tem sido um tópico atraente, sendo crucial para ampliar as aplicações relacionadas. Neste artigo, propomos uma tarefa bastante desafiadora, mas valiosa: reconstruir o corpo humano a partir de apenas duas imagens, ou seja, as vistas frontal e traseira, o que pode reduzir significativamente a barreira para os usuários criarem seus próprios humanos digitais 3D. Os principais desafios residem na dificuldade de construir consistência 3D e recuperar informações ausentes a partir de uma entrada altamente esparsa. Redesenhamos um modelo de reconstrução geométrica baseado em modelos de reconstrução fundamentais para prever nuvens de pontos consistentes, mesmo quando as imagens de entrada têm sobreposições escassas, com treinamento extensivo em dados humanos. Além disso, um algoritmo de aprimoramento é aplicado para complementar as informações de cor ausentes, e então as nuvens de pontos humanas completas com cores podem ser obtidas, que são diretamente transformadas em Gaussianas 3D para melhor qualidade de renderização. Experimentos mostram que nosso método pode reconstruir o corpo humano inteiro em 190 ms em uma única NVIDIA RTX 4090, com duas imagens em uma resolução de 1024x1024, demonstrando desempenho de ponta no conjunto de dados THuman2.0 e em conjuntos de dados de domínio cruzado. Adicionalmente, nosso método pode completar a reconstrução humana mesmo com imagens capturadas por dispositivos móveis de baixo custo, reduzindo os requisitos para coleta de dados. Demonstrações e código estão disponíveis em https://hustvl.github.io/Snap-Snap/.
English
Reconstructing 3D human bodies from sparse views has been an appealing topic,
which is crucial to broader the related applications. In this paper, we propose
a quite challenging but valuable task to reconstruct the human body from only
two images, i.e., the front and back view, which can largely lower the barrier
for users to create their own 3D digital humans. The main challenges lie in the
difficulty of building 3D consistency and recovering missing information from
the highly sparse input. We redesign a geometry reconstruction model based on
foundation reconstruction models to predict consistent point clouds even input
images have scarce overlaps with extensive human data training. Furthermore, an
enhancement algorithm is applied to supplement the missing color information,
and then the complete human point clouds with colors can be obtained, which are
directly transformed into 3D Gaussians for better rendering quality.
Experiments show that our method can reconstruct the entire human in 190 ms on
a single NVIDIA RTX 4090, with two images at a resolution of 1024x1024,
demonstrating state-of-the-art performance on the THuman2.0 and cross-domain
datasets. Additionally, our method can complete human reconstruction even with
images captured by low-cost mobile devices, reducing the requirements for data
collection. Demos and code are available at
https://hustvl.github.io/Snap-Snap/.