ChatPaper.aiChatPaper

VGGHeads: Um Conjunto de Dados Sintético em Grande Escala para Cabeças Humanas em 3D

VGGHeads: A Large-Scale Synthetic Dataset for 3D Human Heads

July 25, 2024
Autores: Orest Kupyn, Eugene Khvedchenia, Christian Rupprecht
cs.AI

Resumo

A detecção de cabeças humanas, estimativa de pontos-chave e ajuste de modelo de cabeça 3D são tarefas importantes com muitas aplicações. No entanto, conjuntos de dados tradicionais do mundo real frequentemente sofrem de viés, questões de privacidade e ética, e são registrados em ambientes laboratoriais, o que torna difícil a generalização dos modelos treinados. Aqui, apresentamos o VGGHeads - um conjunto de dados sintéticos em grande escala gerado com modelos de difusão para detecção de cabeças humanas e estimativa de malha 3D. Nosso conjunto de dados é composto por mais de 1 milhão de imagens em alta resolução, cada uma anotada com malhas de cabeça 3D detalhadas, pontos de referência faciais e caixas delimitadoras. Utilizando este conjunto de dados, introduzimos uma nova arquitetura de modelo capaz de detectar cabeças e reconstruir malhas de cabeça simultaneamente a partir de uma única imagem em um único passo. Através de extensas avaliações experimentais, demonstramos que os modelos treinados em nossos dados sintéticos alcançam um desempenho sólido em imagens reais. Além disso, a versatilidade de nosso conjunto de dados o torna aplicável em uma ampla gama de tarefas, oferecendo uma representação geral e abrangente de cabeças humanas. Adicionalmente, fornecemos informações detalhadas sobre o pipeline de geração de dados sintéticos, possibilitando seu reuso para outras tarefas e domínios.
English
Human head detection, keypoint estimation, and 3D head model fitting are important tasks with many applications. However, traditional real-world datasets often suffer from bias, privacy, and ethical concerns, and they have been recorded in laboratory environments, which makes it difficult for trained models to generalize. Here, we introduce VGGHeads -- a large scale synthetic dataset generated with diffusion models for human head detection and 3D mesh estimation. Our dataset comprises over 1 million high-resolution images, each annotated with detailed 3D head meshes, facial landmarks, and bounding boxes. Using this dataset we introduce a new model architecture capable of simultaneous heads detection and head meshes reconstruction from a single image in a single step. Through extensive experimental evaluations, we demonstrate that models trained on our synthetic data achieve strong performance on real images. Furthermore, the versatility of our dataset makes it applicable across a broad spectrum of tasks, offering a general and comprehensive representation of human heads. Additionally, we provide detailed information about the synthetic data generation pipeline, enabling it to be re-used for other tasks and domains.

Summary

AI-Generated Summary

PDF103November 28, 2024