BEDLAM: Een synthetische dataset van lichamen die gedetailleerde levensechte geanimeerde bewegingen vertonen
BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion
June 29, 2023
Auteurs: Michael J. Black, Priyanka Patel, Joachim Tesch, Jinlong Yang
cs.AI
Samenvatting
We laten voor het eerst zien dat neurale netwerken die alleen op synthetische data zijn getraind, state-of-the-art nauwkeurigheid bereiken bij het probleem van 3D menselijke pose- en vormschatting (HPS) vanuit echte beelden. Eerdere synthetische datasets waren klein, onrealistisch of misten realistische kleding. Het bereiken van voldoende realisme is niet triviaal, en we laten zien hoe dit te doen voor volledige lichamen in beweging. Specifiek bevat onze BEDLAM-dataset monochrome RGB-video’s met grondwaarheid 3D-lichamen in SMPL-X-formaat. Het omvat een diversiteit aan lichaamsvormen, bewegingen, huidskleuren, haar en kleding. De kleding wordt realistisch gesimuleerd op de bewegende lichamen met behulp van commerciële kledingfysica-simulatie. We renderen verschillende aantallen mensen in realistische scènes met gevarieerde belichting en camerabewegingen. Vervolgens trainen we verschillende HPS-regressoren met BEDLAM en bereiken we state-of-the-art nauwkeurigheid op benchmarks met echte beelden, ondanks de training met synthetische data. We gebruiken BEDLAM om inzicht te krijgen in welke modelontwerpkeuzes belangrijk zijn voor nauwkeurigheid. Met goede synthetische trainingsdata vinden we dat een basismethode zoals HMR de nauwkeurigheid van de huidige SOTA-methode (CLIFF) benadert. BEDLAM is nuttig voor een verscheidenheid aan taken, en alle beelden, grondwaarheid lichamen, 3D-kleding, ondersteunende code en meer zijn beschikbaar voor onderzoeksdoeleinden. Daarnaast bieden we gedetailleerde informatie over onze synthetische data-generatiepipeline, waardoor anderen hun eigen datasets kunnen genereren. Zie de projectpagina: https://bedlam.is.tue.mpg.de/.
English
We show, for the first time, that neural networks trained only on synthetic
data achieve state-of-the-art accuracy on the problem of 3D human pose and
shape (HPS) estimation from real images. Previous synthetic datasets have been
small, unrealistic, or lacked realistic clothing. Achieving sufficient realism
is non-trivial and we show how to do this for full bodies in motion.
Specifically, our BEDLAM dataset contains monocular RGB videos with
ground-truth 3D bodies in SMPL-X format. It includes a diversity of body
shapes, motions, skin tones, hair, and clothing. The clothing is realistically
simulated on the moving bodies using commercial clothing physics simulation. We
render varying numbers of people in realistic scenes with varied lighting and
camera motions. We then train various HPS regressors using BEDLAM and achieve
state-of-the-art accuracy on real-image benchmarks despite training with
synthetic data. We use BEDLAM to gain insights into what model design choices
are important for accuracy. With good synthetic training data, we find that a
basic method like HMR approaches the accuracy of the current SOTA method
(CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth
bodies, 3D clothing, support code, and more are available for research
purposes. Additionally, we provide detailed information about our synthetic
data generation pipeline, enabling others to generate their own datasets. See
the project page: https://bedlam.is.tue.mpg.de/.