PoseDreamer: Schaalbare en Fotorealistische Human Data Generatiepijplijn met Diffusiemodellen

Samenvatting

Het verkrijgen van gelabelde datasets voor 3D-meshschatting van het menselijk lichaam is uitdagend vanwege diepte-ambiguïteit en de inherente moeilijkheid van het annoteren van 3D-geometrie vanuit monocular beelden. Bestaande datasets zijn ofwel realistisch, met handmatig geannoteerde 3D-geometrie en beperkte schaal, ofwel synthetisch, gegenereerd door 3D-engines die precieze labels bieden maar lijden onder beperkte fotorealistische kwaliteit, lage diversiteit en hoge productiekosten. In dit werk verkennen we een derde weg: gegenereerde data. We introduceren PoseDreamer, een nieuwe pijplijn die diffusiemodellen benut om grootschalige synthetische datasets met 3D-meshannotaties te genereren. Onze aanpak combineert controleerbare beeldgeneratie met Direct Preference Optimization voor controle-uitlijning, curriculumgebaseerde mining van moeilijke voorbeelden en meerfasige kwaliteitsfiltering. Samen handhaven deze componenten natuurlijke correspondentie tussen 3D-labels en gegenereerde beelden, waarbij prioriteit wordt gegeven aan uitdagende voorbeelden om de bruikbaarheid van de dataset te maximaliseren. Met PoseDreamer genereren we meer dan 500.000 hoogwaardige synthetische samples, wat een verbetering van 76% oplevert in beeldkwaliteitsmetingen vergeleken met op rendering gebaseerde datasets. Modellen getraind op PoseDreamer bereiken prestaties die vergelijkbaar of superieur zijn aan modellen getraind op real-world en traditionele synthetische datasets. Bovendien resulteert het combineren van PoseDreamer met synthetische datasets in betere prestaties dan het combineren van real-world en synthetische datasets, wat de complementaire aard van onze dataset aantoont. We zullen de volledige dataset en generatiecode vrijgeven.

English

Acquiring labeled datasets for 3D human mesh estimation is challenging due to depth ambiguities and the inherent difficulty of annotating 3D geometry from monocular images. Existing datasets are either real, with manually annotated 3D geometry and limited scale, or synthetic, rendered from 3D engines that provide precise labels but suffer from limited photorealism, low diversity, and high production costs. In this work, we explore a third path: generated data. We introduce PoseDreamer, a novel pipeline that leverages diffusion models to generate large-scale synthetic datasets with 3D mesh annotations. Our approach combines controllable image generation with Direct Preference Optimization for control alignment, curriculum-based hard sample mining, and multi-stage quality filtering. Together, these components naturally maintain correspondence between 3D labels and generated images, while prioritizing challenging samples to maximize dataset utility. Using PoseDreamer, we generate more than 500,000 high-quality synthetic samples, achieving a 76% improvement in image-quality metrics compared to rendering-based datasets. Models trained on PoseDreamer achieve performance comparable to or superior to those trained on real-world and traditional synthetic datasets. In addition, combining PoseDreamer with synthetic datasets results in better performance than combining real-world and synthetic datasets, demonstrating the complementary nature of our dataset. We will release the full dataset and generation code.

PoseDreamer: Schaalbare en Fotorealistische Human Data Generatiepijplijn met Diffusiemodellen

PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

Samenvatting

Support