VGGHeads : Un jeu de données synthétique à grande échelle pour les têtes humaines en 3D
VGGHeads: A Large-Scale Synthetic Dataset for 3D Human Heads
July 25, 2024
Auteurs: Orest Kupyn, Eugene Khvedchenia, Christian Rupprecht
cs.AI
Résumé
La détection de têtes humaines, l'estimation de points clés et l'ajustement de modèles 3D de têtes sont des tâches importantes avec de nombreuses applications. Cependant, les ensembles de données traditionnels du monde réel souffrent souvent de biais, de problèmes de confidentialité et de préoccupations éthiques, et ont été enregistrés dans des environnements de laboratoire, ce qui rend difficile la généralisation des modèles entraînés. Ici, nous présentons VGGHeads -- un ensemble de données synthétique à grande échelle généré à l'aide de modèles de diffusion pour la détection de têtes humaines et l'estimation de maillages 3D. Notre ensemble de données comprend plus d'un million d'images haute résolution, chacune annotée avec des maillages 3D détaillés de têtes, des points de repère faciaux et des boîtes englobantes. En utilisant cet ensemble de données, nous introduisons une nouvelle architecture de modèle capable de détecter les têtes et de reconstruire les maillages de têtes à partir d'une seule image en une seule étape. Grâce à des évaluations expérimentales approfondies, nous démontrons que les modèles entraînés sur nos données synthétiques atteignent des performances solides sur des images réelles. De plus, la polyvalence de notre ensemble de données le rend applicable à un large éventail de tâches, offrant une représentation générale et complète des têtes humaines. Enfin, nous fournissons des informations détaillées sur le pipeline de génération de données synthétiques, permettant sa réutilisation pour d'autres tâches et domaines.
English
Human head detection, keypoint estimation, and 3D head model fitting are
important tasks with many applications. However, traditional real-world
datasets often suffer from bias, privacy, and ethical concerns, and they have
been recorded in laboratory environments, which makes it difficult for trained
models to generalize. Here, we introduce VGGHeads -- a large scale synthetic
dataset generated with diffusion models for human head detection and 3D mesh
estimation. Our dataset comprises over 1 million high-resolution images, each
annotated with detailed 3D head meshes, facial landmarks, and bounding boxes.
Using this dataset we introduce a new model architecture capable of
simultaneous heads detection and head meshes reconstruction from a single image
in a single step. Through extensive experimental evaluations, we demonstrate
that models trained on our synthetic data achieve strong performance on real
images. Furthermore, the versatility of our dataset makes it applicable across
a broad spectrum of tasks, offering a general and comprehensive representation
of human heads. Additionally, we provide detailed information about the
synthetic data generation pipeline, enabling it to be re-used for other tasks
and domains.Summary
AI-Generated Summary