BEDLAM: 생생한 애니메이션 동작을 보여주는 신체의 합성 데이터셋
BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion
June 29, 2023
저자: Michael J. Black, Priyanka Patel, Joachim Tesch, Jinlong Yang
cs.AI
초록
본 연구에서는 합성 데이터만으로 훈련된 신경망이 실제 이미지에서의 3D 인간 자세 및 형태(HPS) 추정 문제에서 최첨단 정확도를 달성한다는 것을 처음으로 보여줍니다. 기존의 합성 데이터셋은 크기가 작거나 비현실적이었으며, 현실적인 의상을 포함하지 못했습니다. 충분한 현실감을 달성하는 것은 사소한 일이 아니며, 본 연구에서는 움직이는 전신에 대해 이를 어떻게 달성했는지를 보여줍니다. 구체적으로, 우리의 BEDLAM 데이터셋은 SMPL-X 형식의 정확한 3D 신체 데이터를 포함한 단안 RGB 비디오로 구성되어 있습니다. 이 데이터셋은 다양한 신체 형태, 동작, 피부색, 머리카락, 의상을 포함하고 있습니다. 의상은 상용 의상 물리 시뮬레이션을 사용하여 움직이는 신체에 현실적으로 시뮬레이션되었습니다. 우리는 다양한 조명과 카메라 움직임이 있는 현실적인 장면에서 여러 사람을 렌더링합니다. 그런 다음 BEDLAM을 사용하여 다양한 HPS 회귀 모델을 훈련시키고, 합성 데이터로 훈련했음에도 불구하고 실제 이미지 벤치마크에서 최첨단 정확도를 달성합니다. 우리는 BEDLAM을 사용하여 정확도를 위해 중요한 모델 설계 선택 사항에 대한 통찰을 얻습니다. 좋은 합성 훈련 데이터를 사용하면 HMR과 같은 기본 방법이 현재 최신 기술인 CLIFF의 정확도에 근접한다는 것을 발견했습니다. BEDLAM은 다양한 작업에 유용하며, 모든 이미지, 정확한 신체 데이터, 3D 의상, 지원 코드 등이 연구 목적으로 제공됩니다. 또한, 우리는 합성 데이터 생성 파이프라인에 대한 상세한 정보를 제공하여 다른 연구자들이 자신의 데이터셋을 생성할 수 있도록 합니다. 프로젝트 페이지를 참조하십시오: https://bedlam.is.tue.mpg.de/.
English
We show, for the first time, that neural networks trained only on synthetic
data achieve state-of-the-art accuracy on the problem of 3D human pose and
shape (HPS) estimation from real images. Previous synthetic datasets have been
small, unrealistic, or lacked realistic clothing. Achieving sufficient realism
is non-trivial and we show how to do this for full bodies in motion.
Specifically, our BEDLAM dataset contains monocular RGB videos with
ground-truth 3D bodies in SMPL-X format. It includes a diversity of body
shapes, motions, skin tones, hair, and clothing. The clothing is realistically
simulated on the moving bodies using commercial clothing physics simulation. We
render varying numbers of people in realistic scenes with varied lighting and
camera motions. We then train various HPS regressors using BEDLAM and achieve
state-of-the-art accuracy on real-image benchmarks despite training with
synthetic data. We use BEDLAM to gain insights into what model design choices
are important for accuracy. With good synthetic training data, we find that a
basic method like HMR approaches the accuracy of the current SOTA method
(CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth
bodies, 3D clothing, support code, and more are available for research
purposes. Additionally, we provide detailed information about our synthetic
data generation pipeline, enabling others to generate their own datasets. See
the project page: https://bedlam.is.tue.mpg.de/.