ChatPaper.aiChatPaper

Snap-Snap : Utiliser deux images pour reconstruire des Gaussiennes humaines 3D en millisecondes

Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds

August 20, 2025
papers.authors: Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang
cs.AI

papers.abstract

La reconstruction de corps humains en 3D à partir de vues éparses constitue un sujet captivant, essentiel pour élargir les applications connexes. Dans cet article, nous proposons une tâche particulièrement exigeante mais prometteuse : reconstruire le corps humain à partir de seulement deux images, à savoir les vues de face et de dos, ce qui peut considérablement réduire les obstacles pour les utilisateurs souhaitant créer leurs propres humains numériques en 3D. Les principaux défis résident dans la difficulté à établir une cohérence 3D et à récupérer les informations manquantes à partir d'une entrée très éparse. Nous avons repensé un modèle de reconstruction géométrique basé sur des modèles de reconstruction de base pour prédire des nuages de points cohérents, même lorsque les images d'entrée présentent peu de chevauchements, grâce à un entraînement extensif sur des données humaines. De plus, un algorithme d'amélioration est appliqué pour compléter les informations de couleur manquantes, permettant ainsi d'obtenir des nuages de points humains complets avec des couleurs, qui sont ensuite directement transformés en gaussiennes 3D pour une meilleure qualité de rendu. Les expériences montrent que notre méthode peut reconstruire un humain entier en 190 ms sur une seule carte NVIDIA RTX 4090, avec deux images d'une résolution de 1024x1024, démontrant des performances de pointe sur les ensembles de données THuman2.0 et inter-domaines. Par ailleurs, notre méthode peut accomplir la reconstruction humaine même avec des images capturées par des appareils mobiles peu coûteux, réduisant ainsi les exigences en matière de collecte de données. Les démonstrations et le code sont disponibles à l'adresse https://hustvl.github.io/Snap-Snap/.
English
Reconstructing 3D human bodies from sparse views has been an appealing topic, which is crucial to broader the related applications. In this paper, we propose a quite challenging but valuable task to reconstruct the human body from only two images, i.e., the front and back view, which can largely lower the barrier for users to create their own 3D digital humans. The main challenges lie in the difficulty of building 3D consistency and recovering missing information from the highly sparse input. We redesign a geometry reconstruction model based on foundation reconstruction models to predict consistent point clouds even input images have scarce overlaps with extensive human data training. Furthermore, an enhancement algorithm is applied to supplement the missing color information, and then the complete human point clouds with colors can be obtained, which are directly transformed into 3D Gaussians for better rendering quality. Experiments show that our method can reconstruct the entire human in 190 ms on a single NVIDIA RTX 4090, with two images at a resolution of 1024x1024, demonstrating state-of-the-art performance on the THuman2.0 and cross-domain datasets. Additionally, our method can complete human reconstruction even with images captured by low-cost mobile devices, reducing the requirements for data collection. Demos and code are available at https://hustvl.github.io/Snap-Snap/.
PDF62August 22, 2025