PoseDreamer: Canalización Escalable y Fotorrealista para la Generación de Datos Humanos con Modelos de Difusión

Resumen

La obtención de conjuntos de datos etiquetados para la estimación de mallas humanas 3D es un desafío debido a las ambigüedades de profundidad y la inherente dificultad de anotar geometría 3D a partir de imágenes monoculares. Los conjuntos de datos existentes son reales, con geometría 3D anotada manualmente y escala limitada, o sintéticos, renderizados a partir de motores 3D que proporcionan anotaciones precisas pero adolecen de fotorealismo limitado, baja diversidad y altos costes de producción. En este trabajo, exploramos una tercera vía: los datos generados. Presentamos PoseDreamer, una novedosa pipeline que aprovecha los modelos de difusión para generar conjuntos de datos sintéticos a gran escala con anotaciones de mallas 3D. Nuestro enfoque combina la generación controlable de imágenes con la Optimización de Preferencias Directas para la alineación del control, la minería de muestras difíciles basada en currículum y el filtrado de calidad multi-etapa. En conjunto, estos componentes mantienen naturalmente la correspondencia entre las anotaciones 3D y las imágenes generadas, priorizando al mismo tiempo las muestras desafiantes para maximizar la utilidad del conjunto de datos. Utilizando PoseDreamer, generamos más de 500,000 muestras sintéticas de alta calidad, logrando una mejora del 76% en las métricas de calidad de imagen en comparación con los conjuntos de datos basados en renderizado. Los modelos entrenados con PoseDreamer alcanzan un rendimiento comparable o superior a los entrenados con conjuntos de datos del mundo real y sintéticos tradicionales. Además, combinar PoseDreamer con conjuntos de datos sintéticos da como resultado un mejor rendimiento que combinar conjuntos de datos del mundo real y sintéticos, lo que demuestra la naturaleza complementaria de nuestro conjunto de datos. Publicaremos el conjunto de datos completo y el código de generación.

English

Acquiring labeled datasets for 3D human mesh estimation is challenging due to depth ambiguities and the inherent difficulty of annotating 3D geometry from monocular images. Existing datasets are either real, with manually annotated 3D geometry and limited scale, or synthetic, rendered from 3D engines that provide precise labels but suffer from limited photorealism, low diversity, and high production costs. In this work, we explore a third path: generated data. We introduce PoseDreamer, a novel pipeline that leverages diffusion models to generate large-scale synthetic datasets with 3D mesh annotations. Our approach combines controllable image generation with Direct Preference Optimization for control alignment, curriculum-based hard sample mining, and multi-stage quality filtering. Together, these components naturally maintain correspondence between 3D labels and generated images, while prioritizing challenging samples to maximize dataset utility. Using PoseDreamer, we generate more than 500,000 high-quality synthetic samples, achieving a 76% improvement in image-quality metrics compared to rendering-based datasets. Models trained on PoseDreamer achieve performance comparable to or superior to those trained on real-world and traditional synthetic datasets. In addition, combining PoseDreamer with synthetic datasets results in better performance than combining real-world and synthetic datasets, demonstrating the complementary nature of our dataset. We will release the full dataset and generation code.

PoseDreamer: Canalización Escalable y Fotorrealista para la Generación de Datos Humanos con Modelos de Difusión

PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

Resumen

Support