BEDLAM: Ein synthetischer Datensatz von Körpern mit detaillierten, lebensechten animierten Bewegungen
BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion
June 29, 2023
Autoren: Michael J. Black, Priyanka Patel, Joachim Tesch, Jinlong Yang
cs.AI
Zusammenfassung
Wir zeigen erstmals, dass neuronale Netze, die ausschließlich mit synthetischen Daten trainiert wurden, state-of-the-art Genauigkeit bei der Schätzung von 3D-Körperhaltung und -form (HPS) aus realen Bildern erreichen. Bisherige synthetische Datensätze waren entweder klein, unrealistisch oder enthielten keine realistische Kleidung. Ausreichende Realismus zu erreichen ist nicht trivial, und wir zeigen, wie dies für vollständige Körper in Bewegung gelingt. Konkret enthält unser BEDLAM-Datensatz monokulare RGB-Videos mit Ground-Truth-3D-Körpern im SMPL-X-Format. Es umfasst eine Vielfalt von Körperformen, Bewegungen, Hauttönen, Haaren und Kleidung. Die Kleidung wird realistisch auf den sich bewegenden Körpern simuliert, indem kommerzielle Kleidungsphysik-Simulationen verwendet werden. Wir rendern unterschiedliche Anzahlen von Personen in realistischen Szenen mit variierender Beleuchtung und Kamerabewegungen. Anschließend trainieren wir verschiedene HPS-Regressoren mit BEDLAM und erreichen state-of-the-art Genauigkeit auf Benchmark-Datensätzen mit realen Bildern, obwohl wir nur mit synthetischen Daten trainiert haben. Wir nutzen BEDLAM, um Einblicke zu gewinnen, welche Modellentwurfsentscheidungen für die Genauigkeit wichtig sind. Mit guten synthetischen Trainingsdaten stellen wir fest, dass eine einfache Methode wie HMR die Genauigkeit der aktuellen SOTA-Methode (CLIFF) annähert. BEDLAM ist für eine Vielzahl von Aufgaben nützlich, und alle Bilder, Ground-Truth-Körper, 3D-Kleidung, Support-Code und mehr stehen zu Forschungszwecken zur Verfügung. Zusätzlich bieten wir detaillierte Informationen über unsere Pipeline zur Erzeugung synthetischer Daten, die es anderen ermöglicht, ihre eigenen Datensätze zu generieren. Siehe die Projektseite: https://bedlam.is.tue.mpg.de/.
English
We show, for the first time, that neural networks trained only on synthetic
data achieve state-of-the-art accuracy on the problem of 3D human pose and
shape (HPS) estimation from real images. Previous synthetic datasets have been
small, unrealistic, or lacked realistic clothing. Achieving sufficient realism
is non-trivial and we show how to do this for full bodies in motion.
Specifically, our BEDLAM dataset contains monocular RGB videos with
ground-truth 3D bodies in SMPL-X format. It includes a diversity of body
shapes, motions, skin tones, hair, and clothing. The clothing is realistically
simulated on the moving bodies using commercial clothing physics simulation. We
render varying numbers of people in realistic scenes with varied lighting and
camera motions. We then train various HPS regressors using BEDLAM and achieve
state-of-the-art accuracy on real-image benchmarks despite training with
synthetic data. We use BEDLAM to gain insights into what model design choices
are important for accuracy. With good synthetic training data, we find that a
basic method like HMR approaches the accuracy of the current SOTA method
(CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth
bodies, 3D clothing, support code, and more are available for research
purposes. Additionally, we provide detailed information about our synthetic
data generation pipeline, enabling others to generate their own datasets. See
the project page: https://bedlam.is.tue.mpg.de/.