ChatPaper.aiChatPaper

BEDLAM : Un ensemble de données synthétiques de corps présentant des mouvements animés réalistes et détaillés

BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion

June 29, 2023
Auteurs: Michael J. Black, Priyanka Patel, Joachim Tesch, Jinlong Yang
cs.AI

Résumé

Nous démontrons, pour la première fois, que des réseaux de neurones entraînés uniquement sur des données synthétiques atteignent une précision de pointe pour le problème d'estimation de la pose et de la forme humaine 3D (HPS) à partir d'images réelles. Les précédents ensembles de données synthétiques étaient soit de petite taille, irréalistes, soit manquaient de vêtements réalistes. Atteindre un réalisme suffisant est non trivial, et nous montrons comment y parvenir pour des corps entiers en mouvement. Plus précisément, notre ensemble de données BEDLAM contient des vidéos RGB monoculaires avec des corps 3D annotés au format SMPL-X. Il inclut une diversité de formes corporelles, de mouvements, de teints de peau, de coiffures et de vêtements. Les vêtements sont simulés de manière réaliste sur les corps en mouvement à l'aide d'une simulation physique de vêtements commerciale. Nous rendons un nombre variable de personnes dans des scènes réalistes avec des éclairages et des mouvements de caméra variés. Nous entraînons ensuite divers estimateurs HPS en utilisant BEDLAM et atteignons une précision de pointe sur des benchmarks d'images réelles malgré l'entraînement avec des données synthétiques. Nous utilisons BEDLAM pour comprendre quels choix de conception de modèle sont importants pour la précision. Avec de bonnes données d'entraînement synthétiques, nous constatons qu'une méthode de base comme HMR approche la précision de la méthode SOTA actuelle (CLIFF). BEDLAM est utile pour une variété de tâches, et toutes les images, les corps annotés, les vêtements 3D, le code de support, et plus encore, sont disponibles à des fins de recherche. De plus, nous fournissons des informations détaillées sur notre pipeline de génération de données synthétiques, permettant à d'autres de générer leurs propres ensembles de données. Consultez la page du projet : https://bedlam.is.tue.mpg.de/.
English
We show, for the first time, that neural networks trained only on synthetic data achieve state-of-the-art accuracy on the problem of 3D human pose and shape (HPS) estimation from real images. Previous synthetic datasets have been small, unrealistic, or lacked realistic clothing. Achieving sufficient realism is non-trivial and we show how to do this for full bodies in motion. Specifically, our BEDLAM dataset contains monocular RGB videos with ground-truth 3D bodies in SMPL-X format. It includes a diversity of body shapes, motions, skin tones, hair, and clothing. The clothing is realistically simulated on the moving bodies using commercial clothing physics simulation. We render varying numbers of people in realistic scenes with varied lighting and camera motions. We then train various HPS regressors using BEDLAM and achieve state-of-the-art accuracy on real-image benchmarks despite training with synthetic data. We use BEDLAM to gain insights into what model design choices are important for accuracy. With good synthetic training data, we find that a basic method like HMR approaches the accuracy of the current SOTA method (CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth bodies, 3D clothing, support code, and more are available for research purposes. Additionally, we provide detailed information about our synthetic data generation pipeline, enabling others to generate their own datasets. See the project page: https://bedlam.is.tue.mpg.de/.
PDF60December 15, 2024