ChatPaper.aiChatPaper

단일 이미지로부터 가우시안 스플래팅 변환기를 사용하여 정확한 3D 인간 몸체

GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

September 6, 2024
저자: Lorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht
cs.AI

초록

단안 이미지로부터 현실적인 3D 인간 모델을 재구성하는 것은 창의적 산업, 인간-컴퓨터 인터페이스 및 의료 분야에서 중요한 응용 분야를 가지고 있습니다. 우리의 작업은 가우시안 혼합으로 이루어진 3D 가우시안 스플래팅(3DGS)에 기반하고 있습니다. 단일 입력 이미지로부터 이러한 혼합을 인간을 위해 예측하는 것은 도전적입니다. 왜냐하면 이는 입력 픽셀과의 다대일 관계를 가지는 비균일 밀도이며 엄격한 물리적 제약이 있기 때문입니다. 동시에 이는 다양한 의상과 자세를 수용하기 위해 유연해야 합니다. 우리의 주요 관찰은 표준화된 인간 메쉬(예: SMPL)의 정점들이 가우시안을 위한 적절한 밀도와 근사적인 초기 위치를 제공할 수 있다는 것입니다. 그런 다음 변형 모델을 훈련하여 이러한 위치에 대한 비교적 작은 조정뿐만 아니라 다른 가우시안 속성 및 SMPL 매개변수를 동시에 예측할 수 있습니다. 우리는 실험적으로 이러한 조합(다중 뷰 지도만 사용)이 테스트 시간 최적화, 비용이 많이 드는 확산 모델 또는 3D 포인트 지도 없이 단일 이미지로부터 3D 인간 모델의 빠른 추론을 달성할 수 있음을 보여줍니다. 또한 이를 통해 의상 및 다른 변형을 고려한 인간 모델을 더 잘 맞출 수 있어 3D 자세 추정을 개선할 수 있음을 보여줍니다. 코드는 프로젝트 웹사이트 https://abdullahamdi.com/gst/ 에서 사용할 수 있습니다.
English
Reconstructing realistic 3D human models from monocular images has significant applications in creative industries, human-computer interfaces, and healthcare. We base our work on 3D Gaussian Splatting (3DGS), a scene representation composed of a mixture of Gaussians. Predicting such mixtures for a human from a single input image is challenging, as it is a non-uniform density (with a many-to-one relationship with input pixels) with strict physical constraints. At the same time, it needs to be flexible to accommodate a variety of clothes and poses. Our key observation is that the vertices of standardized human meshes (such as SMPL) can provide an adequate density and approximate initial position for Gaussians. We can then train a transformer model to jointly predict comparatively small adjustments to these positions, as well as the other Gaussians' attributes and the SMPL parameters. We show empirically that this combination (using only multi-view supervision) can achieve fast inference of 3D human models from a single image without test-time optimization, expensive diffusion models, or 3D points supervision. We also show that it can improve 3D pose estimation by better fitting human models that account for clothes and other variations. The code is available on the project website https://abdullahamdi.com/gst/ .

Summary

AI-Generated Summary

PDF152November 16, 2024