Snap-Snap: 두 장의 이미지로 밀리초 단위로 3D 인간 가우시안 재구성하기
Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in Milliseconds
August 20, 2025
저자: Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang
cs.AI
초록
희소한 뷰에서 3D 인체를 재구성하는 것은 관련 애플리케이션의 범위를 넓히는 데 있어 중요한 주제로 주목받아 왔다. 본 논문에서는 단 두 장의 이미지, 즉 정면과 후면 뷰만으로 인체를 재구성하는 매우 도전적이지만 가치 있는 과제를 제안한다. 이는 사용자가 자신만의 3D 디지털 인간을 생성하는 데 있어 진입 장벽을 크게 낮출 수 있다. 주요 도전 과제는 3D 일관성을 구축하고 매우 희소한 입력에서 누락된 정보를 복원하는 데 있다. 우리는 기초 재구성 모델을 기반으로 한 기하학적 재구성 모델을 재설계하여, 입력 이미지가 광범위한 인간 데이터 훈련과 겹치는 부분이 적더라도 일관된 포인트 클라우드를 예측할 수 있도록 했다. 더불어, 누락된 색상 정보를 보완하기 위해 강화 알고리즘을 적용하여 완전한 색상 정보를 가진 인체 포인트 클라우드를 얻고, 이를 더 나은 렌더링 품질을 위해 3D 가우시안으로 직접 변환한다. 실험 결과, 우리의 방법은 단일 NVIDIA RTX 4090에서 1024x1024 해상도의 두 장의 이미지를 사용하여 190ms 내에 전체 인체를 재구성할 수 있으며, THuman2.0 및 크로스 도메인 데이터셋에서 최첨단 성능을 보여준다. 또한, 저비용 모바일 장치로 캡처된 이미지로도 인체 재구성을 완료할 수 있어 데이터 수집 요구 사항을 줄인다. 데모와 코드는 https://hustvl.github.io/Snap-Snap/에서 확인할 수 있다.
English
Reconstructing 3D human bodies from sparse views has been an appealing topic,
which is crucial to broader the related applications. In this paper, we propose
a quite challenging but valuable task to reconstruct the human body from only
two images, i.e., the front and back view, which can largely lower the barrier
for users to create their own 3D digital humans. The main challenges lie in the
difficulty of building 3D consistency and recovering missing information from
the highly sparse input. We redesign a geometry reconstruction model based on
foundation reconstruction models to predict consistent point clouds even input
images have scarce overlaps with extensive human data training. Furthermore, an
enhancement algorithm is applied to supplement the missing color information,
and then the complete human point clouds with colors can be obtained, which are
directly transformed into 3D Gaussians for better rendering quality.
Experiments show that our method can reconstruct the entire human in 190 ms on
a single NVIDIA RTX 4090, with two images at a resolution of 1024x1024,
demonstrating state-of-the-art performance on the THuman2.0 and cross-domain
datasets. Additionally, our method can complete human reconstruction even with
images captured by low-cost mobile devices, reducing the requirements for data
collection. Demos and code are available at
https://hustvl.github.io/Snap-Snap/.