BEDLAM: Um Conjunto de Dados Sintético de Corpos Exibindo Movimento Animado Detalhado e Realista

Resumo

Demonstramos, pela primeira vez, que redes neurais treinadas exclusivamente com dados sintéticos alcançam precisão de ponta no problema de estimativa de pose e forma humana 3D (HPS) a partir de imagens reais. Conjuntos de dados sintéticos anteriores eram pequenos, irreais ou careciam de roupas realistas. Alcançar realismo suficiente não é trivial e mostramos como fazer isso para corpos inteiros em movimento. Especificamente, nosso conjunto de dados BEDLAM contém vídeos RGB monoculares com corpos 3D de referência no formato SMPL-X. Ele inclui uma diversidade de formas corporais, movimentos, tons de pele, cabelos e roupas. As roupas são simuladas de forma realista nos corpos em movimento usando simulação física de roupas comercial. Renderizamos números variados de pessoas em cenas realistas com iluminação e movimentos de câmera variados. Em seguida, treinamos vários regressores HPS usando BEDLAM e alcançamos precisão de ponta em benchmarks de imagens reais, apesar de treinar com dados sintéticos. Usamos BEDLAM para obter insights sobre quais escolhas de design de modelo são importantes para a precisão. Com bons dados de treinamento sintético, descobrimos que um método básico como HMR se aproxima da precisão do método SOTA atual (CLIFF). BEDLAM é útil para uma variedade de tarefas, e todas as imagens, corpos de referência, roupas 3D, código de suporte e mais estão disponíveis para fins de pesquisa. Além disso, fornecemos informações detalhadas sobre nosso pipeline de geração de dados sintéticos, permitindo que outros gerem seus próprios conjuntos de dados. Consulte a página do projeto: https://bedlam.is.tue.mpg.de/.

English

We show, for the first time, that neural networks trained only on synthetic data achieve state-of-the-art accuracy on the problem of 3D human pose and shape (HPS) estimation from real images. Previous synthetic datasets have been small, unrealistic, or lacked realistic clothing. Achieving sufficient realism is non-trivial and we show how to do this for full bodies in motion. Specifically, our BEDLAM dataset contains monocular RGB videos with ground-truth 3D bodies in SMPL-X format. It includes a diversity of body shapes, motions, skin tones, hair, and clothing. The clothing is realistically simulated on the moving bodies using commercial clothing physics simulation. We render varying numbers of people in realistic scenes with varied lighting and camera motions. We then train various HPS regressors using BEDLAM and achieve state-of-the-art accuracy on real-image benchmarks despite training with synthetic data. We use BEDLAM to gain insights into what model design choices are important for accuracy. With good synthetic training data, we find that a basic method like HMR approaches the accuracy of the current SOTA method (CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth bodies, 3D clothing, support code, and more are available for research purposes. Additionally, we provide detailed information about our synthetic data generation pipeline, enabling others to generate their own datasets. See the project page: https://bedlam.is.tue.mpg.de/.

BEDLAM: Um Conjunto de Dados Sintético de Corpos Exibindo Movimento Animado Detalhado e Realista

BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion

Resumo

Support