BEDLAM: Un conjunto de datos sintéticos de cuerpos que exhiben movimientos animados detallados y realistas

Resumen

Demostramos, por primera vez, que las redes neuronales entrenadas únicamente con datos sintéticos alcanzan una precisión de vanguardia en el problema de estimación de pose y forma humana en 3D (HPS) a partir de imágenes reales. Los conjuntos de datos sintéticos anteriores han sido pequeños, poco realistas o carecían de ropa realista. Lograr un realismo suficiente no es trivial y mostramos cómo hacerlo para cuerpos completos en movimiento. Específicamente, nuestro conjunto de datos BEDLAM contiene videos RGB monoculares con cuerpos 3D de referencia en formato SMPL-X. Incluye una diversidad de formas corporales, movimientos, tonos de piel, cabello y ropa. La ropa se simula de manera realista en los cuerpos en movimiento utilizando simulaciones de física de ropa comerciales. Renderizamos un número variable de personas en escenas realistas con iluminación variada y movimientos de cámara. Luego entrenamos varios regresores HPS utilizando BEDLAM y logramos una precisión de vanguardia en benchmarks de imágenes reales a pesar de entrenar con datos sintéticos. Utilizamos BEDLAM para obtener información sobre qué decisiones de diseño de modelos son importantes para la precisión. Con buenos datos de entrenamiento sintéticos, encontramos que un método básico como HMR se acerca a la precisión del método SOTA actual (CLIFF). BEDLAM es útil para una variedad de tareas y todas las imágenes, cuerpos de referencia, ropa 3D, código de soporte y más están disponibles para fines de investigación. Además, proporcionamos información detallada sobre nuestra pipeline de generación de datos sintéticos, permitiendo que otros generen sus propios conjuntos de datos. Visite la página del proyecto: https://bedlam.is.tue.mpg.de/.

English

We show, for the first time, that neural networks trained only on synthetic data achieve state-of-the-art accuracy on the problem of 3D human pose and shape (HPS) estimation from real images. Previous synthetic datasets have been small, unrealistic, or lacked realistic clothing. Achieving sufficient realism is non-trivial and we show how to do this for full bodies in motion. Specifically, our BEDLAM dataset contains monocular RGB videos with ground-truth 3D bodies in SMPL-X format. It includes a diversity of body shapes, motions, skin tones, hair, and clothing. The clothing is realistically simulated on the moving bodies using commercial clothing physics simulation. We render varying numbers of people in realistic scenes with varied lighting and camera motions. We then train various HPS regressors using BEDLAM and achieve state-of-the-art accuracy on real-image benchmarks despite training with synthetic data. We use BEDLAM to gain insights into what model design choices are important for accuracy. With good synthetic training data, we find that a basic method like HMR approaches the accuracy of the current SOTA method (CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth bodies, 3D clothing, support code, and more are available for research purposes. Additionally, we provide detailed information about our synthetic data generation pipeline, enabling others to generate their own datasets. See the project page: https://bedlam.is.tue.mpg.de/.

BEDLAM: Un conjunto de datos sintéticos de cuerpos que exhiben movimientos animados detallados y realistas

BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion

Resumen

Support