ChatPaper.aiChatPaper

MVHumanNet: Масштабный набор данных с многокадровыми съемками повседневно одетых людей

MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures

December 5, 2023
Авторы: Zhangyang Xiong, Chenghong Li, Kenkun Liu, Hongjie Liao, Jianqiao Hu, Junyi Zhu, Shuliang Ning, Lingteng Qiu, Chongjie Wang, Shijie Wang, Shuguang Cui, Xiaoguang Han
cs.AI

Аннотация

В эту эпоху успех крупных языковых моделей и моделей для генерации изображений из текста можно объяснить движущей силой масштабных наборов данных. Однако в области 3D-видения, несмотря на значительный прогресс, достигнутый с моделями, обученными на крупномасштабных синтетических и реально захваченных данных объектов, таких как Objaverse и MVImgNet, аналогичного уровня прогресса не наблюдается в задачах, ориентированных на человека, отчасти из-за отсутствия крупномасштабного набора данных о людях. Существующие наборы данных высококачественного 3D-захвата человека остаются среднего размера из-за значительных сложностей в получении крупномасштабных высококачественных 3D-данных о людях. Чтобы устранить этот пробел, мы представляем MVHumanNet — набор данных, включающий многовидовые последовательности действий 4,500 человеческих идентичностей. Основное внимание в нашей работе уделено сбору данных о людях, которые характеризуются большим количеством разнообразных идентичностей и повседневной одежды, с использованием системы многовидового захвата человека, что облегчает масштабируемый сбор данных. Наш набор данных содержит 9,000 повседневных нарядов, 60,000 последовательностей движений и 645 миллионов кадров с обширными аннотациями, включая маски человека, параметры камер, 2D и 3D ключевые точки, параметры SMPL/SMPLX и соответствующие текстовые описания. Чтобы изучить потенциал MVHumanNet в различных 2D и 3D визуальных задачах, мы провели пилотные исследования по распознаванию действий с согласованным видом, реконструкции человека с использованием NeRF, генерации изображений человека из текста без ограничений по виду, а также генерации 2D изображений человека и 3D аватаров без ограничений по виду. Многочисленные эксперименты демонстрируют улучшение производительности и эффективные приложения, обеспечиваемые масштабом MVHumanNet. Как самый крупный на сегодняшний день набор 3D-данных о людях, мы надеемся, что выпуск данных MVHumanNet с аннотациями будет способствовать дальнейшим инновациям в области масштабных задач, ориентированных на 3D-человека.
English
In this era, the success of large language models and text-to-image models can be attributed to the driving force of large-scale datasets. However, in the realm of 3D vision, while remarkable progress has been made with models trained on large-scale synthetic and real-captured object data like Objaverse and MVImgNet, a similar level of progress has not been observed in the domain of human-centric tasks partially due to the lack of a large-scale human dataset. Existing datasets of high-fidelity 3D human capture continue to be mid-sized due to the significant challenges in acquiring large-scale high-quality 3D human data. To bridge this gap, we present MVHumanNet, a dataset that comprises multi-view human action sequences of 4,500 human identities. The primary focus of our work is on collecting human data that features a large number of diverse identities and everyday clothing using a multi-view human capture system, which facilitates easily scalable data collection. Our dataset contains 9,000 daily outfits, 60,000 motion sequences and 645 million frames with extensive annotations, including human masks, camera parameters, 2D and 3D keypoints, SMPL/SMPLX parameters, and corresponding textual descriptions. To explore the potential of MVHumanNet in various 2D and 3D visual tasks, we conducted pilot studies on view-consistent action recognition, human NeRF reconstruction, text-driven view-unconstrained human image generation, as well as 2D view-unconstrained human image and 3D avatar generation. Extensive experiments demonstrate the performance improvements and effective applications enabled by the scale provided by MVHumanNet. As the current largest-scale 3D human dataset, we hope that the release of MVHumanNet data with annotations will foster further innovations in the domain of 3D human-centric tasks at scale.
PDF120December 15, 2024