Snap-Snap: Utilizzo di due immagini per ricostruire Gaussiane 3D umane in millisecondi
Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds
August 20, 2025
Autori: Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang
cs.AI
Abstract
La ricostruzione di corpi umani 3D da viste sparse è un argomento di grande interesse, cruciale per ampliare le relative applicazioni. In questo articolo, proponiamo un compito particolarmente impegnativo ma di grande valore: ricostruire il corpo umano utilizzando solo due immagini, ovvero la vista frontale e quella posteriore, il che può ridurre significativamente le barriere per gli utenti che desiderano creare i propri avatar digitali 3D. Le principali sfide risiedono nella difficoltà di costruire una coerenza 3D e nel recuperare le informazioni mancanti da un input estremamente sparso. Riprogettiamo un modello di ricostruzione geometrica basato su modelli di ricostruzione di base per prevedere nuvole di punti coerenti, anche quando le immagini di input hanno sovrapposizioni limitate, grazie a un ampio addestramento su dati umani. Inoltre, viene applicato un algoritmo di miglioramento per integrare le informazioni di colore mancanti, ottenendo così nuvole di punti umane complete con colori, che vengono direttamente trasformate in Gaussiane 3D per una migliore qualità di rendering. Gli esperimenti dimostrano che il nostro metodo può ricostruire l'intero corpo umano in 190 ms su una singola NVIDIA RTX 4090, utilizzando due immagini con una risoluzione di 1024x1024, mostrando prestazioni all'avanguardia sui dataset THuman2.0 e cross-dominio. Inoltre, il nostro metodo è in grado di completare la ricostruzione umana anche con immagini acquisite da dispositivi mobili a basso costo, riducendo i requisiti per la raccolta dei dati. Demo e codice sono disponibili all'indirizzo https://hustvl.github.io/Snap-Snap/.
English
Reconstructing 3D human bodies from sparse views has been an appealing topic,
which is crucial to broader the related applications. In this paper, we propose
a quite challenging but valuable task to reconstruct the human body from only
two images, i.e., the front and back view, which can largely lower the barrier
for users to create their own 3D digital humans. The main challenges lie in the
difficulty of building 3D consistency and recovering missing information from
the highly sparse input. We redesign a geometry reconstruction model based on
foundation reconstruction models to predict consistent point clouds even input
images have scarce overlaps with extensive human data training. Furthermore, an
enhancement algorithm is applied to supplement the missing color information,
and then the complete human point clouds with colors can be obtained, which are
directly transformed into 3D Gaussians for better rendering quality.
Experiments show that our method can reconstruct the entire human in 190 ms on
a single NVIDIA RTX 4090, with two images at a resolution of 1024x1024,
demonstrating state-of-the-art performance on the THuman2.0 and cross-domain
datasets. Additionally, our method can complete human reconstruction even with
images captured by low-cost mobile devices, reducing the requirements for data
collection. Demos and code are available at
https://hustvl.github.io/Snap-Snap/.