학습 가능한 등록을 통한 즉각적인 멀티뷰 헤드 캡처
Instant Multi-View Head Capture through Learnable Registration
June 12, 2023
저자: Timo Bolkart, Tianye Li, Michael J. Black
cs.AI
초록
기존의 조밀한 의미론적 대응을 갖춘 3D 헤드 데이터셋을 캡처하는 방법은 느리며, 일반적으로 두 단계로 문제를 해결한다: 다중 뷰 스테레오(MVS) 재구성 후 비강체 등록(non-rigid registration). 이 과정을 단순화하기 위해, 우리는 TEMPEH(Towards Estimation of 3D Meshes from Performances of Expressive Heads)를 도입하여 캘리브레이션된 다중 뷰 이미지에서 직접 조밀한 대응을 갖춘 3D 헤드를 추론한다. 3D 스캔 데이터셋을 등록하는 것은 일반적으로 스캔 표면을 정확하게 맞추는 것과 스캔 노이즈 및 이상치에 강인함 사이의 적절한 균형을 찾기 위해 수동 파라미터 튜닝을 필요로 한다. 대신, 우리는 TEMPEH를 훈련하는 동시에 3D 헤드 데이터셋을 공동으로 등록할 것을 제안한다. 구체적으로, 훈련 중에 우리는 표면 등록에 일반적으로 사용되는 기하학적 손실을 최소화함으로써 TEMPEH를 정규화자(regularizer)로 효과적으로 활용한다. 우리의 다중 뷰 헤드 추론은 카메라 캘리브레이션 정보를 사용하여 각 뷰에서 특징을 샘플링하고 융합하는 볼륨트릭 특징 표현에 기반을 둔다. 부분적 폐색과 헤드 움직임을 가능하게 하는 큰 캡처 볼륨을 고려하기 위해, 우리는 뷰 및 표면 인식 특징 융합과 공간 변환 기반 헤드 위치 지정 모듈을 각각 사용한다. 훈련 중에는 원시 MVS 스캔을 감독으로 사용하지만, 훈련이 완료되면 TEMPEH는 스캔 없이도 직접 조밀한 대응을 갖춘 3D 헤드를 예측한다. 하나의 헤드를 예측하는 데 약 0.3초가 소요되며, 중간 재구성 오차는 0.26mm로 현재 최신 기술보다 64% 낮다. 이를 통해 여러 사람과 다양한 얼굴 움직임을 포함한 대규모 데이터셋을 효율적으로 캡처할 수 있다. 코드, 모델 및 데이터는 https://tempeh.is.tue.mpg.de에서 공개적으로 제공된다.
English
Existing methods for capturing datasets of 3D heads in dense semantic
correspondence are slow, and commonly address the problem in two separate
steps; multi-view stereo (MVS) reconstruction followed by non-rigid
registration. To simplify this process, we introduce TEMPEH (Towards Estimation
of 3D Meshes from Performances of Expressive Heads) to directly infer 3D heads
in dense correspondence from calibrated multi-view images. Registering datasets
of 3D scans typically requires manual parameter tuning to find the right
balance between accurately fitting the scans surfaces and being robust to
scanning noise and outliers. Instead, we propose to jointly register a 3D head
dataset while training TEMPEH. Specifically, during training we minimize a
geometric loss commonly used for surface registration, effectively leveraging
TEMPEH as a regularizer. Our multi-view head inference builds on a volumetric
feature representation that samples and fuses features from each view using
camera calibration information. To account for partial occlusions and a large
capture volume that enables head movements, we use view- and surface-aware
feature fusion, and a spatial transformer-based head localization module,
respectively. We use raw MVS scans as supervision during training, but, once
trained, TEMPEH directly predicts 3D heads in dense correspondence without
requiring scans. Predicting one head takes about 0.3 seconds with a median
reconstruction error of 0.26 mm, 64% lower than the current state-of-the-art.
This enables the efficient capture of large datasets containing multiple people
and diverse facial motions. Code, model, and data are publicly available at
https://tempeh.is.tue.mpg.de.