VGGHeads: Um Conjunto de Dados Sintético em Grande Escala para Cabeças Humanas em 3D
VGGHeads: A Large-Scale Synthetic Dataset for 3D Human Heads
July 25, 2024
Autores: Orest Kupyn, Eugene Khvedchenia, Christian Rupprecht
cs.AI
Resumo
A detecção de cabeças humanas, estimativa de pontos-chave e ajuste de modelo de cabeça 3D são tarefas importantes com muitas aplicações. No entanto, conjuntos de dados tradicionais do mundo real frequentemente sofrem de viés, questões de privacidade e ética, e são registrados em ambientes laboratoriais, o que torna difícil a generalização dos modelos treinados. Aqui, apresentamos o VGGHeads - um conjunto de dados sintéticos em grande escala gerado com modelos de difusão para detecção de cabeças humanas e estimativa de malha 3D. Nosso conjunto de dados é composto por mais de 1 milhão de imagens em alta resolução, cada uma anotada com malhas de cabeça 3D detalhadas, pontos de referência faciais e caixas delimitadoras. Utilizando este conjunto de dados, introduzimos uma nova arquitetura de modelo capaz de detectar cabeças e reconstruir malhas de cabeça simultaneamente a partir de uma única imagem em um único passo. Através de extensas avaliações experimentais, demonstramos que os modelos treinados em nossos dados sintéticos alcançam um desempenho sólido em imagens reais. Além disso, a versatilidade de nosso conjunto de dados o torna aplicável em uma ampla gama de tarefas, oferecendo uma representação geral e abrangente de cabeças humanas. Adicionalmente, fornecemos informações detalhadas sobre o pipeline de geração de dados sintéticos, possibilitando seu reuso para outras tarefas e domínios.
English
Human head detection, keypoint estimation, and 3D head model fitting are
important tasks with many applications. However, traditional real-world
datasets often suffer from bias, privacy, and ethical concerns, and they have
been recorded in laboratory environments, which makes it difficult for trained
models to generalize. Here, we introduce VGGHeads -- a large scale synthetic
dataset generated with diffusion models for human head detection and 3D mesh
estimation. Our dataset comprises over 1 million high-resolution images, each
annotated with detailed 3D head meshes, facial landmarks, and bounding boxes.
Using this dataset we introduce a new model architecture capable of
simultaneous heads detection and head meshes reconstruction from a single image
in a single step. Through extensive experimental evaluations, we demonstrate
that models trained on our synthetic data achieve strong performance on real
images. Furthermore, the versatility of our dataset makes it applicable across
a broad spectrum of tasks, offering a general and comprehensive representation
of human heads. Additionally, we provide detailed information about the
synthetic data generation pipeline, enabling it to be re-used for other tasks
and domains.Summary
AI-Generated Summary