MVHumanNet: Un conjunto de datos a gran escala de capturas humanas con vestimenta cotidiana en múltiples vistas
MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures
December 5, 2023
Autores: Zhangyang Xiong, Chenghong Li, Kenkun Liu, Hongjie Liao, Jianqiao Hu, Junyi Zhu, Shuliang Ning, Lingteng Qiu, Chongjie Wang, Shijie Wang, Shuguang Cui, Xiaoguang Han
cs.AI
Resumen
En esta era, el éxito de los modelos de lenguaje a gran escala y los modelos de texto a imagen puede atribuirse al impulso de los conjuntos de datos a gran escala. Sin embargo, en el ámbito de la visión 3D, aunque se han logrado avances notables con modelos entrenados en datos sintéticos y capturados en el mundo real a gran escala, como Objaverse y MVImgNet, no se ha observado un nivel similar de progreso en el dominio de tareas centradas en humanos, en parte debido a la falta de un conjunto de datos humano a gran escala. Los conjuntos de datos existentes de captura 3D de alta fidelidad de humanos siguen siendo de tamaño mediano debido a los desafíos significativos en la adquisición de datos 3D humanos de alta calidad a gran escala. Para cerrar esta brecha, presentamos MVHumanNet, un conjunto de datos que comprende secuencias de acciones humanas desde múltiples vistas de 4,500 identidades humanas. El enfoque principal de nuestro trabajo es la recopilación de datos humanos que presentan un gran número de identidades diversas y ropa cotidiana utilizando un sistema de captura humana multi-vista, lo que facilita una recolección de datos fácilmente escalable. Nuestro conjunto de datos contiene 9,000 atuendos diarios, 60,000 secuencias de movimiento y 645 millones de fotogramas con anotaciones extensas, que incluyen máscaras humanas, parámetros de cámara, puntos clave 2D y 3D, parámetros SMPL/SMPLX y descripciones textuales correspondientes. Para explorar el potencial de MVHumanNet en diversas tareas visuales 2D y 3D, realizamos estudios piloto sobre reconocimiento de acciones consistentes en la vista, reconstrucción de NeRF humano, generación de imágenes humanas no restringidas por la vista impulsada por texto, así como generación de imágenes humanas 2D no restringidas por la vista y generación de avatares 3D. Experimentos extensos demuestran las mejoras en el rendimiento y las aplicaciones efectivas habilitadas por la escala proporcionada por MVHumanNet. Como el conjunto de datos 3D humano más grande actualmente, esperamos que la publicación de los datos de MVHumanNet con anotaciones fomente más innovaciones en el dominio de tareas centradas en humanos 3D a gran escala.
English
In this era, the success of large language models and text-to-image models
can be attributed to the driving force of large-scale datasets. However, in the
realm of 3D vision, while remarkable progress has been made with models trained
on large-scale synthetic and real-captured object data like Objaverse and
MVImgNet, a similar level of progress has not been observed in the domain of
human-centric tasks partially due to the lack of a large-scale human dataset.
Existing datasets of high-fidelity 3D human capture continue to be mid-sized
due to the significant challenges in acquiring large-scale high-quality 3D
human data. To bridge this gap, we present MVHumanNet, a dataset that comprises
multi-view human action sequences of 4,500 human identities. The primary focus
of our work is on collecting human data that features a large number of diverse
identities and everyday clothing using a multi-view human capture system, which
facilitates easily scalable data collection. Our dataset contains 9,000 daily
outfits, 60,000 motion sequences and 645 million frames with extensive
annotations, including human masks, camera parameters, 2D and 3D keypoints,
SMPL/SMPLX parameters, and corresponding textual descriptions. To explore the
potential of MVHumanNet in various 2D and 3D visual tasks, we conducted pilot
studies on view-consistent action recognition, human NeRF reconstruction,
text-driven view-unconstrained human image generation, as well as 2D
view-unconstrained human image and 3D avatar generation. Extensive experiments
demonstrate the performance improvements and effective applications enabled by
the scale provided by MVHumanNet. As the current largest-scale 3D human
dataset, we hope that the release of MVHumanNet data with annotations will
foster further innovations in the domain of 3D human-centric tasks at scale.