VGGHeads: Een grootschalige synthetische dataset voor 3D-menselijke hoofden
VGGHeads: A Large-Scale Synthetic Dataset for 3D Human Heads
July 25, 2024
Auteurs: Orest Kupyn, Eugene Khvedchenia, Christian Rupprecht
cs.AI
Samenvatting
Detectie van menselijke hoofden, schatting van sleutelpunten en het aanpassen van 3D-hoofdmodellen zijn belangrijke taken met veel toepassingen. Traditionele datasets uit de echte wereld kampen echter vaak met problemen zoals bias, privacy en ethische zorgen, en zijn opgenomen in laboratoriumomgevingen, wat het moeilijk maakt voor getrainde modellen om te generaliseren. Hier introduceren we VGGHeads -- een grootschalige synthetische dataset gegenereerd met diffusiemodellen voor de detectie van menselijke hoofden en 3D-meshschatting. Onze dataset bestaat uit meer dan 1 miljoen hoogwaardige afbeeldingen, elk geannoteerd met gedetailleerde 3D-hoofdmeshes, gezichtslandmarken en begrenzingsvakken. Met behulp van deze dataset introduceren we een nieuw modelarchitectuur dat in staat is om gelijktijdig hoofden te detecteren en hoofdmeshes te reconstrueren vanuit een enkele afbeelding in één stap. Door uitgebreide experimentele evaluaties tonen we aan dat modellen die getraind zijn op onze synthetische data sterke prestaties leveren op echte afbeeldingen. Bovendien maakt de veelzijdigheid van onze dataset deze toepasbaar voor een breed scala aan taken, waardoor het een algemene en uitgebreide representatie van menselijke hoofden biedt. Daarnaast bieden we gedetailleerde informatie over de pijplijn voor het genereren van synthetische data, waardoor deze hergebruikt kan worden voor andere taken en domeinen.
English
Human head detection, keypoint estimation, and 3D head model fitting are
important tasks with many applications. However, traditional real-world
datasets often suffer from bias, privacy, and ethical concerns, and they have
been recorded in laboratory environments, which makes it difficult for trained
models to generalize. Here, we introduce VGGHeads -- a large scale synthetic
dataset generated with diffusion models for human head detection and 3D mesh
estimation. Our dataset comprises over 1 million high-resolution images, each
annotated with detailed 3D head meshes, facial landmarks, and bounding boxes.
Using this dataset we introduce a new model architecture capable of
simultaneous heads detection and head meshes reconstruction from a single image
in a single step. Through extensive experimental evaluations, we demonstrate
that models trained on our synthetic data achieve strong performance on real
images. Furthermore, the versatility of our dataset makes it applicable across
a broad spectrum of tasks, offering a general and comprehensive representation
of human heads. Additionally, we provide detailed information about the
synthetic data generation pipeline, enabling it to be re-used for other tasks
and domains.