MVHumanNet : Un jeu de données à grande échelle de captures humaines habillées quotidiennement en vue multiple
MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures
December 5, 2023
Auteurs: Zhangyang Xiong, Chenghong Li, Kenkun Liu, Hongjie Liao, Jianqiao Hu, Junyi Zhu, Shuliang Ning, Lingteng Qiu, Chongjie Wang, Shijie Wang, Shuguang Cui, Xiaoguang Han
cs.AI
Résumé
À cette époque, le succès des grands modèles de langage et des modèles de génération d'images à partir de texte peut être attribué à la force motrice des jeux de données à grande échelle. Cependant, dans le domaine de la vision 3D, bien que des progrès remarquables aient été réalisés avec des modèles entraînés sur des données d'objets synthétiques et réels à grande échelle comme Objaverse et MVImgNet, un niveau de progression similaire n'a pas été observé dans le domaine des tâches centrées sur l'humain, en partie en raison du manque d'un jeu de données humain à grande échelle. Les jeux de données existants de capture 3D humaine haute fidélité restent de taille moyenne en raison des défis importants liés à l'acquisition de données humaines 3D de haute qualité à grande échelle. Pour combler cette lacune, nous présentons MVHumanNet, un jeu de données qui comprend des séquences d'actions humaines multi-vues de 4 500 identités humaines. L'objectif principal de notre travail est de collecter des données humaines mettant en avant un grand nombre d'identités diverses et des vêtements quotidiens en utilisant un système de capture humaine multi-vues, ce qui facilite une collecte de données facilement extensible. Notre jeu de données contient 9 000 tenues quotidiennes, 60 000 séquences de mouvements et 645 millions d'images avec des annotations étendues, y compris des masques humains, des paramètres de caméra, des points clés 2D et 3D, des paramètres SMPL/SMPLX, et des descriptions textuelles correspondantes. Pour explorer le potentiel de MVHumanNet dans diverses tâches visuelles 2D et 3D, nous avons mené des études pilotes sur la reconnaissance d'actions cohérentes en vue, la reconstruction humaine NeRF, la génération d'images humaines non contraintes par la vue à partir de texte, ainsi que la génération d'images humaines 2D non contraintes par la vue et d'avatars 3D. Des expériences approfondies démontrent les améliorations de performance et les applications efficaces rendues possibles par l'échelle fournie par MVHumanNet. En tant que jeu de données humain 3D le plus vaste à ce jour, nous espérons que la publication des données MVHumanNet avec annotations stimulera davantage d'innovations dans le domaine des tâches centrées sur l'humain en 3D à grande échelle.
English
In this era, the success of large language models and text-to-image models
can be attributed to the driving force of large-scale datasets. However, in the
realm of 3D vision, while remarkable progress has been made with models trained
on large-scale synthetic and real-captured object data like Objaverse and
MVImgNet, a similar level of progress has not been observed in the domain of
human-centric tasks partially due to the lack of a large-scale human dataset.
Existing datasets of high-fidelity 3D human capture continue to be mid-sized
due to the significant challenges in acquiring large-scale high-quality 3D
human data. To bridge this gap, we present MVHumanNet, a dataset that comprises
multi-view human action sequences of 4,500 human identities. The primary focus
of our work is on collecting human data that features a large number of diverse
identities and everyday clothing using a multi-view human capture system, which
facilitates easily scalable data collection. Our dataset contains 9,000 daily
outfits, 60,000 motion sequences and 645 million frames with extensive
annotations, including human masks, camera parameters, 2D and 3D keypoints,
SMPL/SMPLX parameters, and corresponding textual descriptions. To explore the
potential of MVHumanNet in various 2D and 3D visual tasks, we conducted pilot
studies on view-consistent action recognition, human NeRF reconstruction,
text-driven view-unconstrained human image generation, as well as 2D
view-unconstrained human image and 3D avatar generation. Extensive experiments
demonstrate the performance improvements and effective applications enabled by
the scale provided by MVHumanNet. As the current largest-scale 3D human
dataset, we hope that the release of MVHumanNet data with annotations will
foster further innovations in the domain of 3D human-centric tasks at scale.