VGGHeads: un conjunto de datos sintético a gran escala para cabezas humanas en 3D
VGGHeads: A Large-Scale Synthetic Dataset for 3D Human Heads
July 25, 2024
Autores: Orest Kupyn, Eugene Khvedchenia, Christian Rupprecht
cs.AI
Resumen
La detección de cabezas humanas, la estimación de puntos clave y el ajuste de modelos de cabeza en 3D son tareas importantes con numerosas aplicaciones. Sin embargo, los conjuntos de datos tradicionales del mundo real a menudo sufren de sesgos, problemas de privacidad y éticos, y han sido registrados en entornos de laboratorio, lo que dificulta que los modelos entrenados generalicen. Aquí presentamos VGGHeads, un conjunto de datos sintético a gran escala generado con modelos de difusión para la detección de cabezas humanas y la estimación de mallas 3D. Nuestro conjunto de datos consta de más de 1 millón de imágenes de alta resolución, cada una anotada con mallas detalladas de cabeza en 3D, puntos de referencia faciales y cuadros delimitadores. Utilizando este conjunto de datos, presentamos una nueva arquitectura de modelo capaz de detectar cabezas y reconstruir mallas de cabeza simultáneamente a partir de una sola imagen en un solo paso. A través de extensas evaluaciones experimentales, demostramos que los modelos entrenados en nuestros datos sintéticos logran un rendimiento sólido en imágenes reales. Además, la versatilidad de nuestro conjunto de datos lo hace aplicable en una amplia gama de tareas, ofreciendo una representación general y completa de cabezas humanas. Adicionalmente, proporcionamos información detallada sobre el proceso de generación de datos sintéticos, lo que permite su reutilización para otras tareas y dominios.
English
Human head detection, keypoint estimation, and 3D head model fitting are
important tasks with many applications. However, traditional real-world
datasets often suffer from bias, privacy, and ethical concerns, and they have
been recorded in laboratory environments, which makes it difficult for trained
models to generalize. Here, we introduce VGGHeads -- a large scale synthetic
dataset generated with diffusion models for human head detection and 3D mesh
estimation. Our dataset comprises over 1 million high-resolution images, each
annotated with detailed 3D head meshes, facial landmarks, and bounding boxes.
Using this dataset we introduce a new model architecture capable of
simultaneous heads detection and head meshes reconstruction from a single image
in a single step. Through extensive experimental evaluations, we demonstrate
that models trained on our synthetic data achieve strong performance on real
images. Furthermore, the versatility of our dataset makes it applicable across
a broad spectrum of tasks, offering a general and comprehensive representation
of human heads. Additionally, we provide detailed information about the
synthetic data generation pipeline, enabling it to be re-used for other tasks
and domains.Summary
AI-Generated Summary