MVHumanNet: Een grootschalige dataset van multi-view opnames van dagelijks geklede mensen
MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures
December 5, 2023
Auteurs: Zhangyang Xiong, Chenghong Li, Kenkun Liu, Hongjie Liao, Jianqiao Hu, Junyi Zhu, Shuliang Ning, Lingteng Qiu, Chongjie Wang, Shijie Wang, Shuguang Cui, Xiaoguang Han
cs.AI
Samenvatting
In dit tijdperk kan het succes van grote taalmodelen en tekst-naar-beeldmodellen worden toegeschreven aan de drijvende kracht van grootschalige datasets. In het domein van 3D-visie is echter, ondanks opmerkelijke vooruitgang met modellen die getraind zijn op grootschalige synthetische en echt vastgelegde objectdata zoals Objaverse en MVImgNet, een vergelijkbaar niveau van vooruitgang niet waargenomen in het domein van mensgerichte taken, deels vanwege het ontbreken van een grootschalige menselijke dataset. Bestaande datasets van hoogwaardige 3D-menselijke opnames blijven van gemiddelde omvang vanwege de aanzienlijke uitdagingen bij het verkrijgen van grootschalige, hoogwaardige 3D-menselijke data. Om deze kloof te overbruggen, presenteren we MVHumanNet, een dataset die multi-view menselijke actiesequenties van 4.500 menselijke identiteiten omvat. De primaire focus van ons werk ligt op het verzamelen van menselijke data die een groot aantal diverse identiteiten en alledaagse kleding bevatten met behulp van een multi-view menselijk opnamesysteem, wat gemakkelijk schaalbare datacollectie mogelijk maakt. Onze dataset bevat 9.000 dagelijkse outfits, 60.000 bewegingssequenties en 645 miljoen frames met uitgebreide annotaties, waaronder menselijke maskers, cameraparameters, 2D- en 3D-sleutelpunten, SMPL/SMPLX-parameters en bijbehorende tekstuele beschrijvingen. Om het potentieel van MVHumanNet in diverse 2D- en 3D-visuele taken te verkennen, hebben we pilotstudies uitgevoerd op het gebied van view-consistente actieherkenning, menselijke NeRF-reconstructie, tekstgedreven view-onbeperkte menselijke beeldgeneratie, evenals 2D view-onbeperkte menselijke beeld- en 3D-avatargeneratie. Uitgebreide experimenten tonen de prestatieverbeteringen en effectieve toepassingen aan die mogelijk worden gemaakt door de schaal die MVHumanNet biedt. Als de huidige grootste 3D-menselijke dataset hopen we dat de release van MVHumanNet-data met annotaties verdere innovaties zal stimuleren in het domein van grootschalige 3D-mensgerichte taken.
English
In this era, the success of large language models and text-to-image models
can be attributed to the driving force of large-scale datasets. However, in the
realm of 3D vision, while remarkable progress has been made with models trained
on large-scale synthetic and real-captured object data like Objaverse and
MVImgNet, a similar level of progress has not been observed in the domain of
human-centric tasks partially due to the lack of a large-scale human dataset.
Existing datasets of high-fidelity 3D human capture continue to be mid-sized
due to the significant challenges in acquiring large-scale high-quality 3D
human data. To bridge this gap, we present MVHumanNet, a dataset that comprises
multi-view human action sequences of 4,500 human identities. The primary focus
of our work is on collecting human data that features a large number of diverse
identities and everyday clothing using a multi-view human capture system, which
facilitates easily scalable data collection. Our dataset contains 9,000 daily
outfits, 60,000 motion sequences and 645 million frames with extensive
annotations, including human masks, camera parameters, 2D and 3D keypoints,
SMPL/SMPLX parameters, and corresponding textual descriptions. To explore the
potential of MVHumanNet in various 2D and 3D visual tasks, we conducted pilot
studies on view-consistent action recognition, human NeRF reconstruction,
text-driven view-unconstrained human image generation, as well as 2D
view-unconstrained human image and 3D avatar generation. Extensive experiments
demonstrate the performance improvements and effective applications enabled by
the scale provided by MVHumanNet. As the current largest-scale 3D human
dataset, we hope that the release of MVHumanNet data with annotations will
foster further innovations in the domain of 3D human-centric tasks at scale.