BEDLAM: Ein synthetischer Datensatz von Körpern mit detaillierten, lebensechten animierten Bewegungen

Zusammenfassung

Wir zeigen erstmals, dass neuronale Netze, die ausschließlich mit synthetischen Daten trainiert wurden, state-of-the-art Genauigkeit bei der Schätzung von 3D-Körperhaltung und -form (HPS) aus realen Bildern erreichen. Bisherige synthetische Datensätze waren entweder klein, unrealistisch oder enthielten keine realistische Kleidung. Ausreichende Realismus zu erreichen ist nicht trivial, und wir zeigen, wie dies für vollständige Körper in Bewegung gelingt. Konkret enthält unser BEDLAM-Datensatz monokulare RGB-Videos mit Ground-Truth-3D-Körpern im SMPL-X-Format. Es umfasst eine Vielfalt von Körperformen, Bewegungen, Hauttönen, Haaren und Kleidung. Die Kleidung wird realistisch auf den sich bewegenden Körpern simuliert, indem kommerzielle Kleidungsphysik-Simulationen verwendet werden. Wir rendern unterschiedliche Anzahlen von Personen in realistischen Szenen mit variierender Beleuchtung und Kamerabewegungen. Anschließend trainieren wir verschiedene HPS-Regressoren mit BEDLAM und erreichen state-of-the-art Genauigkeit auf Benchmark-Datensätzen mit realen Bildern, obwohl wir nur mit synthetischen Daten trainiert haben. Wir nutzen BEDLAM, um Einblicke zu gewinnen, welche Modellentwurfsentscheidungen für die Genauigkeit wichtig sind. Mit guten synthetischen Trainingsdaten stellen wir fest, dass eine einfache Methode wie HMR die Genauigkeit der aktuellen SOTA-Methode (CLIFF) annähert. BEDLAM ist für eine Vielzahl von Aufgaben nützlich, und alle Bilder, Ground-Truth-Körper, 3D-Kleidung, Support-Code und mehr stehen zu Forschungszwecken zur Verfügung. Zusätzlich bieten wir detaillierte Informationen über unsere Pipeline zur Erzeugung synthetischer Daten, die es anderen ermöglicht, ihre eigenen Datensätze zu generieren. Siehe die Projektseite: https://bedlam.is.tue.mpg.de/.

English

We show, for the first time, that neural networks trained only on synthetic data achieve state-of-the-art accuracy on the problem of 3D human pose and shape (HPS) estimation from real images. Previous synthetic datasets have been small, unrealistic, or lacked realistic clothing. Achieving sufficient realism is non-trivial and we show how to do this for full bodies in motion. Specifically, our BEDLAM dataset contains monocular RGB videos with ground-truth 3D bodies in SMPL-X format. It includes a diversity of body shapes, motions, skin tones, hair, and clothing. The clothing is realistically simulated on the moving bodies using commercial clothing physics simulation. We render varying numbers of people in realistic scenes with varied lighting and camera motions. We then train various HPS regressors using BEDLAM and achieve state-of-the-art accuracy on real-image benchmarks despite training with synthetic data. We use BEDLAM to gain insights into what model design choices are important for accuracy. With good synthetic training data, we find that a basic method like HMR approaches the accuracy of the current SOTA method (CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth bodies, 3D clothing, support code, and more are available for research purposes. Additionally, we provide detailed information about our synthetic data generation pipeline, enabling others to generate their own datasets. See the project page: https://bedlam.is.tue.mpg.de/.