ChatPaper.aiChatPaper

VGGHeads : Un jeu de données synthétique à grande échelle pour les têtes humaines en 3D

VGGHeads: A Large-Scale Synthetic Dataset for 3D Human Heads

July 25, 2024
Auteurs: Orest Kupyn, Eugene Khvedchenia, Christian Rupprecht
cs.AI

Résumé

La détection de têtes humaines, l'estimation de points clés et l'ajustement de modèles 3D de têtes sont des tâches importantes avec de nombreuses applications. Cependant, les ensembles de données traditionnels du monde réel souffrent souvent de biais, de problèmes de confidentialité et de préoccupations éthiques, et ont été enregistrés dans des environnements de laboratoire, ce qui rend difficile la généralisation des modèles entraînés. Ici, nous présentons VGGHeads -- un ensemble de données synthétique à grande échelle généré à l'aide de modèles de diffusion pour la détection de têtes humaines et l'estimation de maillages 3D. Notre ensemble de données comprend plus d'un million d'images haute résolution, chacune annotée avec des maillages 3D détaillés de têtes, des points de repère faciaux et des boîtes englobantes. En utilisant cet ensemble de données, nous introduisons une nouvelle architecture de modèle capable de détecter les têtes et de reconstruire les maillages de têtes à partir d'une seule image en une seule étape. Grâce à des évaluations expérimentales approfondies, nous démontrons que les modèles entraînés sur nos données synthétiques atteignent des performances solides sur des images réelles. De plus, la polyvalence de notre ensemble de données le rend applicable à un large éventail de tâches, offrant une représentation générale et complète des têtes humaines. Enfin, nous fournissons des informations détaillées sur le pipeline de génération de données synthétiques, permettant sa réutilisation pour d'autres tâches et domaines.
English
Human head detection, keypoint estimation, and 3D head model fitting are important tasks with many applications. However, traditional real-world datasets often suffer from bias, privacy, and ethical concerns, and they have been recorded in laboratory environments, which makes it difficult for trained models to generalize. Here, we introduce VGGHeads -- a large scale synthetic dataset generated with diffusion models for human head detection and 3D mesh estimation. Our dataset comprises over 1 million high-resolution images, each annotated with detailed 3D head meshes, facial landmarks, and bounding boxes. Using this dataset we introduce a new model architecture capable of simultaneous heads detection and head meshes reconstruction from a single image in a single step. Through extensive experimental evaluations, we demonstrate that models trained on our synthetic data achieve strong performance on real images. Furthermore, the versatility of our dataset makes it applicable across a broad spectrum of tasks, offering a general and comprehensive representation of human heads. Additionally, we provide detailed information about the synthetic data generation pipeline, enabling it to be re-used for other tasks and domains.

Summary

AI-Generated Summary

PDF103November 28, 2024