BEDLAM: Un conjunto de datos sintéticos de cuerpos que exhiben movimientos animados detallados y realistas
BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion
June 29, 2023
Autores: Michael J. Black, Priyanka Patel, Joachim Tesch, Jinlong Yang
cs.AI
Resumen
Demostramos, por primera vez, que las redes neuronales entrenadas únicamente con datos sintéticos alcanzan una precisión de vanguardia en el problema de estimación de pose y forma humana en 3D (HPS) a partir de imágenes reales. Los conjuntos de datos sintéticos anteriores han sido pequeños, poco realistas o carecían de ropa realista. Lograr un realismo suficiente no es trivial y mostramos cómo hacerlo para cuerpos completos en movimiento. Específicamente, nuestro conjunto de datos BEDLAM contiene videos RGB monoculares con cuerpos 3D de referencia en formato SMPL-X. Incluye una diversidad de formas corporales, movimientos, tonos de piel, cabello y ropa. La ropa se simula de manera realista en los cuerpos en movimiento utilizando simulaciones de física de ropa comerciales. Renderizamos un número variable de personas en escenas realistas con iluminación variada y movimientos de cámara. Luego entrenamos varios regresores HPS utilizando BEDLAM y logramos una precisión de vanguardia en benchmarks de imágenes reales a pesar de entrenar con datos sintéticos. Utilizamos BEDLAM para obtener información sobre qué decisiones de diseño de modelos son importantes para la precisión. Con buenos datos de entrenamiento sintéticos, encontramos que un método básico como HMR se acerca a la precisión del método SOTA actual (CLIFF). BEDLAM es útil para una variedad de tareas y todas las imágenes, cuerpos de referencia, ropa 3D, código de soporte y más están disponibles para fines de investigación. Además, proporcionamos información detallada sobre nuestra pipeline de generación de datos sintéticos, permitiendo que otros generen sus propios conjuntos de datos. Visite la página del proyecto: https://bedlam.is.tue.mpg.de/.
English
We show, for the first time, that neural networks trained only on synthetic
data achieve state-of-the-art accuracy on the problem of 3D human pose and
shape (HPS) estimation from real images. Previous synthetic datasets have been
small, unrealistic, or lacked realistic clothing. Achieving sufficient realism
is non-trivial and we show how to do this for full bodies in motion.
Specifically, our BEDLAM dataset contains monocular RGB videos with
ground-truth 3D bodies in SMPL-X format. It includes a diversity of body
shapes, motions, skin tones, hair, and clothing. The clothing is realistically
simulated on the moving bodies using commercial clothing physics simulation. We
render varying numbers of people in realistic scenes with varied lighting and
camera motions. We then train various HPS regressors using BEDLAM and achieve
state-of-the-art accuracy on real-image benchmarks despite training with
synthetic data. We use BEDLAM to gain insights into what model design choices
are important for accuracy. With good synthetic training data, we find that a
basic method like HMR approaches the accuracy of the current SOTA method
(CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth
bodies, 3D clothing, support code, and more are available for research
purposes. Additionally, we provide detailed information about our synthetic
data generation pipeline, enabling others to generate their own datasets. See
the project page: https://bedlam.is.tue.mpg.de/.