ChatPaper.aiChatPaper

Snap-Snap: Het maken van twee afbeeldingen om 3D-menselijke Gaussians in milliseconden te reconstrueren

Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds

August 20, 2025
Auteurs: Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang
cs.AI

Samenvatting

Het reconstrueren van 3D-menselijke lichamen vanuit beperkte aanzichten is een aantrekkelijk onderwerp geweest, wat cruciaal is om de gerelateerde toepassingen te verbreden. In dit artikel stellen we een uitdagende maar waardevolle taak voor: het reconstrueren van het menselijk lichaam vanuit slechts twee afbeeldingen, namelijk het voor- en achteraanzicht, wat de drempel voor gebruikers om hun eigen 3D-digitale mensen te creëren aanzienlijk kan verlagen. De belangrijkste uitdagingen liggen in de moeilijkheid om 3D-consistentie op te bouwen en ontbrekende informatie te herstellen vanuit de zeer beperkte invoer. We herontwerpen een geometrie-reconstructiemodel op basis van fundamentele reconstructiemodellen om consistente puntenwolken te voorspellen, zelfs wanneer invoerafbeeldingen weinig overlap hebben, dankzij uitgebreide training met menselijke data. Bovendien wordt een verbeteringsalgoritme toegepast om de ontbrekende kleurinformatie aan te vullen, waarna de complete menselijke puntenwolken met kleuren verkregen kunnen worden, die direct worden omgezet in 3D-Gaussians voor een betere renderkwaliteit. Experimenten tonen aan dat onze methode het gehele menselijk lichaam kan reconstrueren in 190 ms op een enkele NVIDIA RTX 4090, met twee afbeeldingen van een resolutie van 1024x1024, wat state-of-the-art prestaties demonstreert op de THuman2.0 en cross-domein datasets. Daarnaast kan onze methode menselijke reconstructies voltooien, zelfs met afbeeldingen die zijn vastgelegd door goedkope mobiele apparaten, waardoor de vereisten voor dataverzameling worden verminderd. Demo's en code zijn beschikbaar op https://hustvl.github.io/Snap-Snap/.
English
Reconstructing 3D human bodies from sparse views has been an appealing topic, which is crucial to broader the related applications. In this paper, we propose a quite challenging but valuable task to reconstruct the human body from only two images, i.e., the front and back view, which can largely lower the barrier for users to create their own 3D digital humans. The main challenges lie in the difficulty of building 3D consistency and recovering missing information from the highly sparse input. We redesign a geometry reconstruction model based on foundation reconstruction models to predict consistent point clouds even input images have scarce overlaps with extensive human data training. Furthermore, an enhancement algorithm is applied to supplement the missing color information, and then the complete human point clouds with colors can be obtained, which are directly transformed into 3D Gaussians for better rendering quality. Experiments show that our method can reconstruct the entire human in 190 ms on a single NVIDIA RTX 4090, with two images at a resolution of 1024x1024, demonstrating state-of-the-art performance on the THuman2.0 and cross-domain datasets. Additionally, our method can complete human reconstruction even with images captured by low-cost mobile devices, reducing the requirements for data collection. Demos and code are available at https://hustvl.github.io/Snap-Snap/.
PDF92August 22, 2025