MVHumanNet: Ein umfangreicher Datensatz von Mehransichtsaufnahmen alltäglich bekleideter Personen
MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures
December 5, 2023
Autoren: Zhangyang Xiong, Chenghong Li, Kenkun Liu, Hongjie Liao, Jianqiao Hu, Junyi Zhu, Shuliang Ning, Lingteng Qiu, Chongjie Wang, Shijie Wang, Shuguang Cui, Xiaoguang Han
cs.AI
Zusammenfassung
In dieser Ära kann der Erfolg von großen Sprachmodellen und Text-zu-Bild-Modellen auf die treibende Kraft groß angelegter Datensätze zurückgeführt werden. Im Bereich der 3D-Vision wurden jedoch, obwohl bemerkenswerte Fortschritte mit Modellen erzielt wurden, die auf groß angelegten synthetischen und real erfassten Objektdaten wie Objaverse und MVImgNet trainiert wurden, ähnliche Fortschritte im Bereich der menschenzentrierten Aufgaben teilweise aufgrund des Mangels an einem groß angelegten menschlichen Datensatz nicht beobachtet. Bestehende Datensätze von hochwertigen 3D-Menschenaufnahmen bleiben aufgrund der erheblichen Herausforderungen bei der Erfassung groß angelegter, hochwertiger 3D-Menschendaten mittelgroß. Um diese Lücke zu schließen, präsentieren wir MVHumanNet, einen Datensatz, der Multi-View-Mensch-Aktionssequenzen von 4.500 menschlichen Identitäten umfasst. Der Schwerpunkt unserer Arbeit liegt auf der Erfassung von menschlichen Daten, die eine große Anzahl verschiedener Identitäten und alltägliche Kleidung mit einem Multi-View-Menschenerfassungssystem beinhalten, das eine leicht skalierbare Datenerfassung ermöglicht. Unser Datensatz enthält 9.000 tägliche Outfits, 60.000 Bewegungssequenzen und 645 Millionen Frames mit umfangreichen Annotationen, einschließlich menschlicher Masken, Kameraparameter, 2D- und 3D-Keypoints, SMPL/SMPLX-Parameter und entsprechender textueller Beschreibungen. Um das Potenzial von MVHumanNet in verschiedenen 2D- und 3D-Visualisierungsaufgaben zu erkunden, führten wir Pilotstudien zu sichtkonsistenter Aktionserkennung, menschlicher NeRF-Rekonstruktion, textgesteuerter sichtunabhängiger menschlicher Bildgenerierung sowie 2D-sichtunabhängiger menschlicher Bild- und 3D-Avatargenerierung durch. Umfangreiche Experimente zeigen die Leistungsverbesserungen und effektiven Anwendungen, die durch den Umfang von MVHumanNet ermöglicht werden. Als derzeit größter 3D-Menschendatensatz hoffen wir, dass die Veröffentlichung der MVHumanNet-Daten mit Annotationen weitere Innovationen im Bereich der groß angelegten 3D-menschenzentrierten Aufgaben fördern wird.
English
In this era, the success of large language models and text-to-image models
can be attributed to the driving force of large-scale datasets. However, in the
realm of 3D vision, while remarkable progress has been made with models trained
on large-scale synthetic and real-captured object data like Objaverse and
MVImgNet, a similar level of progress has not been observed in the domain of
human-centric tasks partially due to the lack of a large-scale human dataset.
Existing datasets of high-fidelity 3D human capture continue to be mid-sized
due to the significant challenges in acquiring large-scale high-quality 3D
human data. To bridge this gap, we present MVHumanNet, a dataset that comprises
multi-view human action sequences of 4,500 human identities. The primary focus
of our work is on collecting human data that features a large number of diverse
identities and everyday clothing using a multi-view human capture system, which
facilitates easily scalable data collection. Our dataset contains 9,000 daily
outfits, 60,000 motion sequences and 645 million frames with extensive
annotations, including human masks, camera parameters, 2D and 3D keypoints,
SMPL/SMPLX parameters, and corresponding textual descriptions. To explore the
potential of MVHumanNet in various 2D and 3D visual tasks, we conducted pilot
studies on view-consistent action recognition, human NeRF reconstruction,
text-driven view-unconstrained human image generation, as well as 2D
view-unconstrained human image and 3D avatar generation. Extensive experiments
demonstrate the performance improvements and effective applications enabled by
the scale provided by MVHumanNet. As the current largest-scale 3D human
dataset, we hope that the release of MVHumanNet data with annotations will
foster further innovations in the domain of 3D human-centric tasks at scale.