ChatPaper.aiChatPaper

Snap-Snap: Tomando dos imágenes para reconstruir Gaussianas humanas 3D en milisegundos

Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds

August 20, 2025
Autores: Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang
cs.AI

Resumen

La reconstrucción de cuerpos humanos en 3D a partir de vistas escasas ha sido un tema atractivo, crucial para ampliar las aplicaciones relacionadas. En este artículo, proponemos una tarea desafiante pero valiosa: reconstruir el cuerpo humano utilizando solo dos imágenes, es decir, las vistas frontal y posterior, lo que puede reducir significativamente la barrera para que los usuarios creen sus propios humanos digitales en 3D. Los principales desafíos radican en la dificultad de construir consistencia 3D y recuperar información faltante a partir de una entrada altamente escasa. Rediseñamos un modelo de reconstrucción geométrica basado en modelos de reconstrucción fundamentales para predecir nubes de puntos consistentes, incluso cuando las imágenes de entrada tienen superposiciones mínimas, gracias a un extenso entrenamiento con datos humanos. Además, se aplica un algoritmo de mejora para complementar la información de color faltante, obteniendo así nubes de puntos humanas completas con color, que se transforman directamente en gaussianas 3D para una mejor calidad de renderizado. Los experimentos muestran que nuestro método puede reconstruir un humano completo en 190 ms en una sola NVIDIA RTX 4090, utilizando dos imágenes con una resolución de 1024x1024, demostrando un rendimiento de vanguardia en los conjuntos de datos THuman2.0 y de dominio cruzado. Además, nuestro método puede completar la reconstrucción humana incluso con imágenes capturadas por dispositivos móviles de bajo costo, reduciendo los requisitos para la recopilación de datos. Demos y código están disponibles en https://hustvl.github.io/Snap-Snap/.
English
Reconstructing 3D human bodies from sparse views has been an appealing topic, which is crucial to broader the related applications. In this paper, we propose a quite challenging but valuable task to reconstruct the human body from only two images, i.e., the front and back view, which can largely lower the barrier for users to create their own 3D digital humans. The main challenges lie in the difficulty of building 3D consistency and recovering missing information from the highly sparse input. We redesign a geometry reconstruction model based on foundation reconstruction models to predict consistent point clouds even input images have scarce overlaps with extensive human data training. Furthermore, an enhancement algorithm is applied to supplement the missing color information, and then the complete human point clouds with colors can be obtained, which are directly transformed into 3D Gaussians for better rendering quality. Experiments show that our method can reconstruct the entire human in 190 ms on a single NVIDIA RTX 4090, with two images at a resolution of 1024x1024, demonstrating state-of-the-art performance on the THuman2.0 and cross-domain datasets. Additionally, our method can complete human reconstruction even with images captured by low-cost mobile devices, reducing the requirements for data collection. Demos and code are available at https://hustvl.github.io/Snap-Snap/.
PDF62August 22, 2025