MVHumanNet: Um Conjunto de Dados em Grande Escala de Capturas Humanas com Vestimentas Diárias em Múltiplas Visões
MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human Captures
December 5, 2023
Autores: Zhangyang Xiong, Chenghong Li, Kenkun Liu, Hongjie Liao, Jianqiao Hu, Junyi Zhu, Shuliang Ning, Lingteng Qiu, Chongjie Wang, Shijie Wang, Shuguang Cui, Xiaoguang Han
cs.AI
Resumo
Nesta era, o sucesso dos grandes modelos de linguagem e dos modelos de texto para imagem pode ser atribuído à força motriz dos conjuntos de dados em larga escala. No entanto, no campo da visão 3D, embora progressos notáveis tenham sido alcançados com modelos treinados em grandes volumes de dados sintéticos e capturados em objetos reais, como Objaverse e MVImgNet, um nível semelhante de avanço não foi observado no domínio de tarefas centradas no ser humano, em parte devido à falta de um conjunto de dados humano em larga escala. Os conjuntos de dados existentes de captura 3D de alta fidelidade de humanos continuam a ser de tamanho médio, devido aos desafios significativos na aquisição de dados humanos 3D de alta qualidade em grande escala. Para preencher essa lacuna, apresentamos o MVHumanNet, um conjunto de dados que compreende sequências de ações humanas capturadas em múltiplas perspectivas de 4.500 identidades humanas. O foco principal do nosso trabalho é na coleta de dados humanos que apresentam um grande número de identidades diversas e roupas do cotidiano, utilizando um sistema de captura humana multi-visão, o que facilita a coleta de dados escalável. Nosso conjunto de dados contém 9.000 trajes diários, 60.000 sequências de movimento e 645 milhões de quadros com anotações extensas, incluindo máscaras humanas, parâmetros de câmera, pontos-chave 2D e 3D, parâmetros SMPL/SMPLX e descrições textuais correspondentes. Para explorar o potencial do MVHumanNet em várias tarefas visuais 2D e 3D, realizamos estudos piloto em reconhecimento de ação consistente em diferentes perspectivas, reconstrução de NeRF humano, geração de imagens humanas não restritas a uma perspectiva baseada em texto, bem como geração de imagens humanas 2D não restritas a uma perspectiva e geração de avatares 3D. Experimentos extensivos demonstram as melhorias de desempenho e as aplicações eficazes possibilitadas pela escala proporcionada pelo MVHumanNet. Como o maior conjunto de dados humanos 3D atualmente disponível, esperamos que a liberação dos dados do MVHumanNet com anotações promova inovações adicionais no domínio de tarefas centradas no ser humano em 3D em larga escala.
English
In this era, the success of large language models and text-to-image models
can be attributed to the driving force of large-scale datasets. However, in the
realm of 3D vision, while remarkable progress has been made with models trained
on large-scale synthetic and real-captured object data like Objaverse and
MVImgNet, a similar level of progress has not been observed in the domain of
human-centric tasks partially due to the lack of a large-scale human dataset.
Existing datasets of high-fidelity 3D human capture continue to be mid-sized
due to the significant challenges in acquiring large-scale high-quality 3D
human data. To bridge this gap, we present MVHumanNet, a dataset that comprises
multi-view human action sequences of 4,500 human identities. The primary focus
of our work is on collecting human data that features a large number of diverse
identities and everyday clothing using a multi-view human capture system, which
facilitates easily scalable data collection. Our dataset contains 9,000 daily
outfits, 60,000 motion sequences and 645 million frames with extensive
annotations, including human masks, camera parameters, 2D and 3D keypoints,
SMPL/SMPLX parameters, and corresponding textual descriptions. To explore the
potential of MVHumanNet in various 2D and 3D visual tasks, we conducted pilot
studies on view-consistent action recognition, human NeRF reconstruction,
text-driven view-unconstrained human image generation, as well as 2D
view-unconstrained human image and 3D avatar generation. Extensive experiments
demonstrate the performance improvements and effective applications enabled by
the scale provided by MVHumanNet. As the current largest-scale 3D human
dataset, we hope that the release of MVHumanNet data with annotations will
foster further innovations in the domain of 3D human-centric tasks at scale.