VGGHeads: Un Dataset Sintetico su Larga Scala per Teste Umane 3D
VGGHeads: A Large-Scale Synthetic Dataset for 3D Human Heads
July 25, 2024
Autori: Orest Kupyn, Eugene Khvedchenia, Christian Rupprecht
cs.AI
Abstract
La rilevazione della testa umana, la stima dei punti chiave e l'adattamento del modello 3D della testa sono compiti importanti con molte applicazioni. Tuttavia, i tradizionali dataset del mondo reale spesso presentano problemi di bias, privacy e preoccupazioni etiche, e sono stati registrati in ambienti di laboratorio, il che rende difficile per i modelli addestrati generalizzare. Qui presentiamo VGGHeads -- un ampio dataset sintetico generato con modelli di diffusione per la rilevazione della testa umana e la stima delle mesh 3D. Il nostro dataset comprende oltre 1 milione di immagini ad alta risoluzione, ciascuna annotata con dettagliate mesh 3D della testa, punti di riferimento facciali e bounding box. Utilizzando questo dataset, introduciamo una nuova architettura di modello in grado di eseguire simultaneamente la rilevazione delle teste e la ricostruzione delle mesh della testa da una singola immagine in un unico passaggio. Attraverso valutazioni sperimentali estensive, dimostriamo che i modelli addestrati sui nostri dati sintetici raggiungono prestazioni solide su immagini reali. Inoltre, la versatilità del nostro dataset lo rende applicabile a un ampio spettro di compiti, offrendo una rappresentazione generale e completa delle teste umane. In aggiunta, forniamo informazioni dettagliate sulla pipeline di generazione dei dati sintetici, consentendone il riutilizzo per altri compiti e domini.
English
Human head detection, keypoint estimation, and 3D head model fitting are
important tasks with many applications. However, traditional real-world
datasets often suffer from bias, privacy, and ethical concerns, and they have
been recorded in laboratory environments, which makes it difficult for trained
models to generalize. Here, we introduce VGGHeads -- a large scale synthetic
dataset generated with diffusion models for human head detection and 3D mesh
estimation. Our dataset comprises over 1 million high-resolution images, each
annotated with detailed 3D head meshes, facial landmarks, and bounding boxes.
Using this dataset we introduce a new model architecture capable of
simultaneous heads detection and head meshes reconstruction from a single image
in a single step. Through extensive experimental evaluations, we demonstrate
that models trained on our synthetic data achieve strong performance on real
images. Furthermore, the versatility of our dataset makes it applicable across
a broad spectrum of tasks, offering a general and comprehensive representation
of human heads. Additionally, we provide detailed information about the
synthetic data generation pipeline, enabling it to be re-used for other tasks
and domains.