BEDLAM: Синтетический набор данных тел, демонстрирующих детализированное реалистичное анимированное движение
BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion
June 29, 2023
Авторы: Michael J. Black, Priyanka Patel, Joachim Tesch, Jinlong Yang
cs.AI
Аннотация
Мы впервые демонстрируем, что нейронные сети, обученные исключительно на синтетических данных, достигают наивысшей точности в задаче оценки 3D позы и формы человеческого тела (HPS) по реальным изображениям. Предыдущие синтетические наборы данных были либо небольшими, либо нереалистичными, либо не учитывали реалистичную одежду. Достижение достаточной реалистичности является нетривиальной задачей, и мы показываем, как это сделать для движущихся тел в полном объеме. В частности, наш набор данных BEDLAM содержит монохромные RGB-видео с эталонными 3D моделями тел в формате SMPL-X. Он включает разнообразие форм тела, движений, оттенков кожи, причесок и одежды. Одежда реалистично симулируется на движущихся телах с использованием коммерческого симулятора физики одежды. Мы визуализируем различное количество людей в реалистичных сценах с изменяющимся освещением и движением камеры. Затем мы обучаем различные регрессоры HPS с использованием BEDLAM и достигаем наивысшей точности на бенчмарках с реальными изображениями, несмотря на обучение на синтетических данных. Мы используем BEDLAM для получения инсайтов о том, какие конструктивные решения модели важны для точности. С качественными синтетическими данными для обучения мы обнаруживаем, что базовый метод, такой как HMR, приближается к точности текущего SOTA метода (CLIFF). BEDLAM полезен для решения различных задач, и все изображения, эталонные модели тел, 3D одежда, вспомогательный код и многое другое доступны для исследовательских целей. Кроме того, мы предоставляем подробную информацию о нашем конвейере генерации синтетических данных, что позволяет другим создавать свои собственные наборы данных. См. страницу проекта: https://bedlam.is.tue.mpg.de/.
English
We show, for the first time, that neural networks trained only on synthetic
data achieve state-of-the-art accuracy on the problem of 3D human pose and
shape (HPS) estimation from real images. Previous synthetic datasets have been
small, unrealistic, or lacked realistic clothing. Achieving sufficient realism
is non-trivial and we show how to do this for full bodies in motion.
Specifically, our BEDLAM dataset contains monocular RGB videos with
ground-truth 3D bodies in SMPL-X format. It includes a diversity of body
shapes, motions, skin tones, hair, and clothing. The clothing is realistically
simulated on the moving bodies using commercial clothing physics simulation. We
render varying numbers of people in realistic scenes with varied lighting and
camera motions. We then train various HPS regressors using BEDLAM and achieve
state-of-the-art accuracy on real-image benchmarks despite training with
synthetic data. We use BEDLAM to gain insights into what model design choices
are important for accuracy. With good synthetic training data, we find that a
basic method like HMR approaches the accuracy of the current SOTA method
(CLIFF). BEDLAM is useful for a variety of tasks and all images, ground truth
bodies, 3D clothing, support code, and more are available for research
purposes. Additionally, we provide detailed information about our synthetic
data generation pipeline, enabling others to generate their own datasets. See
the project page: https://bedlam.is.tue.mpg.de/.