PoseDreamer: Pipeline scalabile e fotorealistica per la generazione di dati umani con modelli di diffusione

Abstract

L'acquisizione di dataset annotati per la stima della mesh umana 3D è complessa a causa delle ambiguità di profondità e della difficoltà intrinseca di annotare la geometria 3D a partire da immagini monoculari. I dataset esistenti sono di due tipi: reali, con geometria 3D annotata manualmente e di scala limitata, o sintetici, generati da motori 3D che forniscono etichette precise ma soffrono di fotorealismo limitato, bassa diversità e alti costi di produzione. In questo lavoro, esploriamo una terza via: i dati generati. Introduciamo PoseDreamer, una pipeline innovativa che sfrutta i modelli di diffusione per generare dataset sintetici su larga scala con annotazioni di mesh 3D. Il nostro approccio combina la generazione controllata di immagini con l'ottimizzazione diretta delle preferenze per l'allineamento del controllo, il mining di campioni difficili basato su curriculum e un filtraggio di qualità multi-stadio. Insieme, questi componenti mantengono naturalmente la corrispondenza tra le etichette 3D e le immagini generate, privilegiando al contempo i campioni più impegnativi per massimizzare l'utilità del dataset. Utilizzando PoseDreamer, abbiamo generato oltre 500.000 campioni sintetici di alta qualità, ottenendo un miglioramento del 76% nelle metriche di qualità dell'immagine rispetto ai dataset basati sul rendering. I modelli addestrati su PoseDreamer raggiungono prestazioni paragonabili o superiori a quelli addestrati su dataset del mondo reale e sintetici tradizionali. Inoltre, combinare PoseDreamer con dataset sintetici tradizionali produce prestazioni migliori rispetto alla combinazione di dataset reali e sintetici, dimostrando la natura complementare del nostro dataset. Rilasceremo il dataset completo e il codice di generazione.

English

Acquiring labeled datasets for 3D human mesh estimation is challenging due to depth ambiguities and the inherent difficulty of annotating 3D geometry from monocular images. Existing datasets are either real, with manually annotated 3D geometry and limited scale, or synthetic, rendered from 3D engines that provide precise labels but suffer from limited photorealism, low diversity, and high production costs. In this work, we explore a third path: generated data. We introduce PoseDreamer, a novel pipeline that leverages diffusion models to generate large-scale synthetic datasets with 3D mesh annotations. Our approach combines controllable image generation with Direct Preference Optimization for control alignment, curriculum-based hard sample mining, and multi-stage quality filtering. Together, these components naturally maintain correspondence between 3D labels and generated images, while prioritizing challenging samples to maximize dataset utility. Using PoseDreamer, we generate more than 500,000 high-quality synthetic samples, achieving a 76% improvement in image-quality metrics compared to rendering-based datasets. Models trained on PoseDreamer achieve performance comparable to or superior to those trained on real-world and traditional synthetic datasets. In addition, combining PoseDreamer with synthetic datasets results in better performance than combining real-world and synthetic datasets, demonstrating the complementary nature of our dataset. We will release the full dataset and generation code.

PoseDreamer: Pipeline scalabile e fotorealistica per la generazione di dati umani con modelli di diffusione

PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

Abstract

Support