BEDLAM: Синтетический набор данных тел, демонстрирующих детализированное реалистичное анимированное движение

Аннотация

Мы впервые демонстрируем, что нейронные сети, обученные исключительно на синтетических данных, достигают наивысшей точности в задаче оценки 3D позы и формы человеческого тела (HPS) по реальным изображениям. Предыдущие синтетические наборы данных были либо небольшими, либо нереалистичными, либо не учитывали реалистичную одежду. Достижение достаточной реалистичности является нетривиальной задачей, и мы показываем, как это сделать для движущихся тел в полном объеме. В частности, наш набор данных BEDLAM содержит монохромные RGB-видео с эталонными 3D моделями тел в формате SMPL-X. Он включает разнообразие форм тела, движений, оттенков кожи, причесок и одежды. Одежда реалистично симулируется на движущихся телах с использованием коммерческого симулятора физики одежды. Мы визуализируем различное количество людей в реалистичных сценах с изменяющимся освещением и движением камеры. Затем мы обучаем различные регрессоры HPS с использованием BEDLAM и достигаем наивысшей точности на бенчмарках с реальными изображениями, несмотря на обучение на синтетических данных. Мы используем BEDLAM для получения инсайтов о том, какие конструктивные решения модели важны для точности. С качественными синтетическими данными для обучения мы обнаруживаем, что базовый метод, такой как HMR, приближается к точности текущего SOTA метода (CLIFF). BEDLAM полезен для решения различных задач, и все изображения, эталонные модели тел, 3D одежда, вспомогательный код и многое другое доступны для исследовательских целей. Кроме того, мы предоставляем подробную информацию о нашем конвейере генерации синтетических данных, что позволяет другим создавать свои собственные наборы данных. См. страницу проекта: https://bedlam.is.tue.mpg.de/.

English

We show, for the first time, that neural networks trained only on synthetic data achieve state-of-the-art accuracy on the problem of 3D human pose and shape (HPS) estimation from real images. Previous synthetic datasets have been small, unrealistic, or lacked realistic clothing. Achieving sufficient realism is non-trivial and we show how to do this for full bodies in motion. Specifically, our BEDLAM dataset contains monocular RGB videos with ground-truth 3D bodies in SMPL-X format. It includes a diversity of body shapes, motions, skin tones, hair, and clothing. The clothing is realistically simulated on the moving bodies using commercial clothing physics simulation. We render varying numbers of people in realistic scenes with varied lighting and camera motions. We then train various HPS regressors using BEDLAM and achieve state-of-the-art accuracy on real-image benchmarks despite training with synthetic data. We use BEDLAM to gain insights into what model design choices are important for accuracy. With good synthetic training data, we find that a basic method like HMR approaches the accuracy of the current SOTA method (CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth bodies, 3D clothing, support code, and more are available for research purposes. Additionally, we provide detailed information about our synthetic data generation pipeline, enabling others to generate their own datasets. See the project page: https://bedlam.is.tue.mpg.de/.

BEDLAM: Синтетический набор данных тел, демонстрирующих детализированное реалистичное анимированное движение

BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion

Аннотация

Support