Snap-Snap: Zwei Bilder zur Rekonstruktion von 3D-Human-Gaussians in Millisekunden
Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds
August 20, 2025
papers.authors: Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang
cs.AI
papers.abstract
Die Rekonstruktion von 3D-Menschmodellen aus spärlichen Ansichten ist ein attraktives Forschungsthema, das entscheidend ist, um die damit verbundenen Anwendungen zu erweitern. In diesem Artikel schlagen wir eine äußerst anspruchsvolle, aber wertvolle Aufgabe vor: die Rekonstruktion des menschlichen Körpers aus nur zwei Bildern, nämlich der Front- und Rückansicht, wodurch die Hürde für Benutzer, ihre eigenen 3D-Digitalmenschen zu erstellen, erheblich gesenkt werden kann. Die Hauptherausforderungen liegen in der Schwierigkeit, 3D-Konsistenz herzustellen und fehlende Informationen aus den sehr spärlichen Eingabedaten wiederherzustellen. Wir haben ein Geometrie-Rekonstruktionsmodell basierend auf Grundlagen-Rekonstruktionsmodellen neu gestaltet, um konsistente Punktwolken vorherzusagen, selbst wenn die Eingabebilder nur geringe Überlappungen aufweisen, und dies durch umfangreiche Trainingsdaten von Menschen unterstützt. Darüber hinaus wird ein Verbesserungsalgorithmus angewendet, um die fehlenden Farbinformationen zu ergänzen, wodurch vollständige menschliche Punktwolken mit Farben erzeugt werden können, die direkt in 3D-Gaußsche Verteilungen umgewandelt werden, um eine bessere Rendering-Qualität zu erreichen. Experimente zeigen, dass unsere Methode den gesamten Menschen in 190 ms auf einer einzelnen NVIDIA RTX 4090 rekonstruieren kann, wobei zwei Bilder mit einer Auflösung von 1024x1024 verwendet werden, was state-of-the-art Leistungen auf den THuman2.0- und Cross-Domain-Datensätzen demonstriert. Zusätzlich kann unsere Methode die menschliche Rekonstruktion auch mit Bildern abschließen, die von kostengünstigen Mobilgeräten aufgenommen wurden, wodurch die Anforderungen an die Datenerfassung reduziert werden. Demos und Code sind verfügbar unter https://hustvl.github.io/Snap-Snap/.
English
Reconstructing 3D human bodies from sparse views has been an appealing topic,
which is crucial to broader the related applications. In this paper, we propose
a quite challenging but valuable task to reconstruct the human body from only
two images, i.e., the front and back view, which can largely lower the barrier
for users to create their own 3D digital humans. The main challenges lie in the
difficulty of building 3D consistency and recovering missing information from
the highly sparse input. We redesign a geometry reconstruction model based on
foundation reconstruction models to predict consistent point clouds even input
images have scarce overlaps with extensive human data training. Furthermore, an
enhancement algorithm is applied to supplement the missing color information,
and then the complete human point clouds with colors can be obtained, which are
directly transformed into 3D Gaussians for better rendering quality.
Experiments show that our method can reconstruct the entire human in 190 ms on
a single NVIDIA RTX 4090, with two images at a resolution of 1024x1024,
demonstrating state-of-the-art performance on the THuman2.0 and cross-domain
datasets. Additionally, our method can complete human reconstruction even with
images captured by low-cost mobile devices, reducing the requirements for data
collection. Demos and code are available at
https://hustvl.github.io/Snap-Snap/.