BEDLAM: Um Conjunto de Dados Sintético de Corpos Exibindo Movimento Animado Detalhado e Realista
BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion
June 29, 2023
Autores: Michael J. Black, Priyanka Patel, Joachim Tesch, Jinlong Yang
cs.AI
Resumo
Demonstramos, pela primeira vez, que redes neurais treinadas exclusivamente com dados sintéticos alcançam precisão de ponta no problema de estimativa de pose e forma humana 3D (HPS) a partir de imagens reais. Conjuntos de dados sintéticos anteriores eram pequenos, irreais ou careciam de roupas realistas. Alcançar realismo suficiente não é trivial e mostramos como fazer isso para corpos inteiros em movimento. Especificamente, nosso conjunto de dados BEDLAM contém vídeos RGB monoculares com corpos 3D de referência no formato SMPL-X. Ele inclui uma diversidade de formas corporais, movimentos, tons de pele, cabelos e roupas. As roupas são simuladas de forma realista nos corpos em movimento usando simulação física de roupas comercial. Renderizamos números variados de pessoas em cenas realistas com iluminação e movimentos de câmera variados. Em seguida, treinamos vários regressores HPS usando BEDLAM e alcançamos precisão de ponta em benchmarks de imagens reais, apesar de treinar com dados sintéticos. Usamos BEDLAM para obter insights sobre quais escolhas de design de modelo são importantes para a precisão. Com bons dados de treinamento sintético, descobrimos que um método básico como HMR se aproxima da precisão do método SOTA atual (CLIFF). BEDLAM é útil para uma variedade de tarefas, e todas as imagens, corpos de referência, roupas 3D, código de suporte e mais estão disponíveis para fins de pesquisa. Além disso, fornecemos informações detalhadas sobre nosso pipeline de geração de dados sintéticos, permitindo que outros gerem seus próprios conjuntos de dados. Consulte a página do projeto: https://bedlam.is.tue.mpg.de/.
English
We show, for the first time, that neural networks trained only on synthetic
data achieve state-of-the-art accuracy on the problem of 3D human pose and
shape (HPS) estimation from real images. Previous synthetic datasets have been
small, unrealistic, or lacked realistic clothing. Achieving sufficient realism
is non-trivial and we show how to do this for full bodies in motion.
Specifically, our BEDLAM dataset contains monocular RGB videos with
ground-truth 3D bodies in SMPL-X format. It includes a diversity of body
shapes, motions, skin tones, hair, and clothing. The clothing is realistically
simulated on the moving bodies using commercial clothing physics simulation. We
render varying numbers of people in realistic scenes with varied lighting and
camera motions. We then train various HPS regressors using BEDLAM and achieve
state-of-the-art accuracy on real-image benchmarks despite training with
synthetic data. We use BEDLAM to gain insights into what model design choices
are important for accuracy. With good synthetic training data, we find that a
basic method like HMR approaches the accuracy of the current SOTA method
(CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth
bodies, 3D clothing, support code, and more are available for research
purposes. Additionally, we provide detailed information about our synthetic
data generation pipeline, enabling others to generate their own datasets. See
the project page: https://bedlam.is.tue.mpg.de/.