BEDLAM: Een synthetische dataset van lichamen die gedetailleerde levensechte geanimeerde bewegingen vertonen

Samenvatting

We laten voor het eerst zien dat neurale netwerken die alleen op synthetische data zijn getraind, state-of-the-art nauwkeurigheid bereiken bij het probleem van 3D menselijke pose- en vormschatting (HPS) vanuit echte beelden. Eerdere synthetische datasets waren klein, onrealistisch of misten realistische kleding. Het bereiken van voldoende realisme is niet triviaal, en we laten zien hoe dit te doen voor volledige lichamen in beweging. Specifiek bevat onze BEDLAM-dataset monochrome RGB-video’s met grondwaarheid 3D-lichamen in SMPL-X-formaat. Het omvat een diversiteit aan lichaamsvormen, bewegingen, huidskleuren, haar en kleding. De kleding wordt realistisch gesimuleerd op de bewegende lichamen met behulp van commerciële kledingfysica-simulatie. We renderen verschillende aantallen mensen in realistische scènes met gevarieerde belichting en camerabewegingen. Vervolgens trainen we verschillende HPS-regressoren met BEDLAM en bereiken we state-of-the-art nauwkeurigheid op benchmarks met echte beelden, ondanks de training met synthetische data. We gebruiken BEDLAM om inzicht te krijgen in welke modelontwerpkeuzes belangrijk zijn voor nauwkeurigheid. Met goede synthetische trainingsdata vinden we dat een basismethode zoals HMR de nauwkeurigheid van de huidige SOTA-methode (CLIFF) benadert. BEDLAM is nuttig voor een verscheidenheid aan taken, en alle beelden, grondwaarheid lichamen, 3D-kleding, ondersteunende code en meer zijn beschikbaar voor onderzoeksdoeleinden. Daarnaast bieden we gedetailleerde informatie over onze synthetische data-generatiepipeline, waardoor anderen hun eigen datasets kunnen genereren. Zie de projectpagina: https://bedlam.is.tue.mpg.de/.

English

We show, for the first time, that neural networks trained only on synthetic data achieve state-of-the-art accuracy on the problem of 3D human pose and shape (HPS) estimation from real images. Previous synthetic datasets have been small, unrealistic, or lacked realistic clothing. Achieving sufficient realism is non-trivial and we show how to do this for full bodies in motion. Specifically, our BEDLAM dataset contains monocular RGB videos with ground-truth 3D bodies in SMPL-X format. It includes a diversity of body shapes, motions, skin tones, hair, and clothing. The clothing is realistically simulated on the moving bodies using commercial clothing physics simulation. We render varying numbers of people in realistic scenes with varied lighting and camera motions. We then train various HPS regressors using BEDLAM and achieve state-of-the-art accuracy on real-image benchmarks despite training with synthetic data. We use BEDLAM to gain insights into what model design choices are important for accuracy. With good synthetic training data, we find that a basic method like HMR approaches the accuracy of the current SOTA method (CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth bodies, 3D clothing, support code, and more are available for research purposes. Additionally, we provide detailed information about our synthetic data generation pipeline, enabling others to generate their own datasets. See the project page: https://bedlam.is.tue.mpg.de/.

BEDLAM: Een synthetische dataset van lichamen die gedetailleerde levensechte geanimeerde bewegingen vertonen

BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion

Samenvatting

Support