MVHumanNet: Un dataset su larga scala di acquisizioni umane vestite in abiti quotidiani da più angolazioni

Abstract

In questa epoca, il successo dei modelli linguistici su larga scala e dei modelli di generazione di immagini da testo può essere attribuito alla spinta propulsiva dei dataset su larga scala. Tuttavia, nel campo della visione 3D, sebbene siano stati compiuti progressi significativi con modelli addestrati su dati sintetici e reali su larga scala come Objaverse e MVImgNet, un livello simile di avanzamento non è stato osservato nel dominio dei task centrati sull’essere umano, in parte a causa della mancanza di un dataset umano su larga scala. I dataset esistenti di acquisizione 3D ad alta fedeltà di esseri umani rimangono di dimensioni medie a causa delle significative sfide legate all’acquisizione di dati 3D umani di alta qualità su larga scala. Per colmare questa lacuna, presentiamo MVHumanNet, un dataset che comprende sequenze di azioni umane multi-view di 4.500 identità umane. L’obiettivo principale del nostro lavoro è la raccolta di dati umani che presentano un ampio numero di identità diverse e abiti quotidiani utilizzando un sistema di acquisizione umana multi-view, che facilita una raccolta dati facilmente scalabile. Il nostro dataset contiene 9.000 outfit quotidiani, 60.000 sequenze di movimento e 645 milioni di frame con annotazioni estese, tra cui maschere umane, parametri della telecamera, keypoint 2D e 3D, parametri SMPL/SMPLX e descrizioni testuali corrispondenti. Per esplorare il potenziale di MVHumanNet in vari task visivi 2D e 3D, abbiamo condotto studi pilota sul riconoscimento di azioni coerenti tra le viste, la ricostruzione NeRF umana, la generazione di immagini umane non vincolate alla vista guidata da testo, nonché la generazione di immagini umane 2D non vincolate alla vista e la generazione di avatar 3D. Esperimenti estesi dimostrano i miglioramenti delle prestazioni e le applicazioni efficaci resi possibili dalla scala fornita da MVHumanNet. In quanto dataset 3D umano più ampio attualmente disponibile, speriamo che il rilascio dei dati di MVHumanNet con annotazioni possa favorire ulteriori innovazioni nel dominio dei task 3D centrati sull’essere umano su larga scala.

English

In this era, the success of large language models and text-to-image models can be attributed to the driving force of large-scale datasets. However, in the realm of 3D vision, while remarkable progress has been made with models trained on large-scale synthetic and real-captured object data like Objaverse and MVImgNet, a similar level of progress has not been observed in the domain of human-centric tasks partially due to the lack of a large-scale human dataset. Existing datasets of high-fidelity 3D human capture continue to be mid-sized due to the significant challenges in acquiring large-scale high-quality 3D human data. To bridge this gap, we present MVHumanNet, a dataset that comprises multi-view human action sequences of 4,500 human identities. The primary focus of our work is on collecting human data that features a large number of diverse identities and everyday clothing using a multi-view human capture system, which facilitates easily scalable data collection. Our dataset contains 9,000 daily outfits, 60,000 motion sequences and 645 million frames with extensive annotations, including human masks, camera parameters, 2D and 3D keypoints, SMPL/SMPLX parameters, and corresponding textual descriptions. To explore the potential of MVHumanNet in various 2D and 3D visual tasks, we conducted pilot studies on view-consistent action recognition, human NeRF reconstruction, text-driven view-unconstrained human image generation, as well as 2D view-unconstrained human image and 3D avatar generation. Extensive experiments demonstrate the performance improvements and effective applications enabled by the scale provided by MVHumanNet. As the current largest-scale 3D human dataset, we hope that the release of MVHumanNet data with annotations will foster further innovations in the domain of 3D human-centric tasks at scale.

MVHumanNet: Un dataset su larga scala di acquisizioni umane vestite in abiti quotidiani da più angolazioni

MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures

Abstract

Support