PoseDreamer : Pipeline de génération de données humaines évolutif et photoréaliste avec modèles de diffusion

Résumé

L'acquisition de jeux de données annotés pour l'estimation de maillage humain 3D est difficile en raison des ambiguïtés de profondeur et de la difficulté inhérente à l'annotation de la géométrie 3D à partir d'images monoculaires. Les jeux de données existants sont soit réels, avec une géométrie 3D annotée manuellement et une échelle limitée, soit synthétiques, générés par des moteurs 3D qui fournissent des annotations précises mais souffrent d'un photoréalisme limité, d'une faible diversité et de coûts de production élevés. Dans ce travail, nous explorons une troisième voie : les données générées. Nous présentons PoseDreamer, une nouvelle méthode qui exploite les modèles de diffusion pour générer des jeux de données synthétiques à grande échelle avec des annotations de maillage 3D. Notre approche combine la génération d'images contrôlable avec l'Optimisation Directe des Préférences pour l'alignement du contrôle, l'extraction d'échantillons difficiles basée sur un curriculum et un filtrage de qualité multi-étapes. Ensemble, ces composants maintiennent naturellement la correspondance entre les annotations 3D et les images générées, tout en priorisant les échantillons difficiles pour maximiser l'utilité du jeu de données. En utilisant PoseDreamer, nous générons plus de 500 000 échantillons synthétiques de haute qualité, obtenant une amélioration de 76 % des métriques de qualité d'image par rapport aux jeux de données basés sur le rendu. Les modèles entraînés sur PoseDreamer atteignent des performances comparables ou supérieures à ceux entraînés sur des jeux de données réels et synthétiques traditionnels. De plus, combiner PoseDreamer avec des jeux de données synthétiques donne de meilleures performances que de combiner des jeux de données réels et synthétiques, démontrant la nature complémentaire de notre jeu de données. Nous publierons le jeu de données complet et le code de génération.

English

Acquiring labeled datasets for 3D human mesh estimation is challenging due to depth ambiguities and the inherent difficulty of annotating 3D geometry from monocular images. Existing datasets are either real, with manually annotated 3D geometry and limited scale, or synthetic, rendered from 3D engines that provide precise labels but suffer from limited photorealism, low diversity, and high production costs. In this work, we explore a third path: generated data. We introduce PoseDreamer, a novel pipeline that leverages diffusion models to generate large-scale synthetic datasets with 3D mesh annotations. Our approach combines controllable image generation with Direct Preference Optimization for control alignment, curriculum-based hard sample mining, and multi-stage quality filtering. Together, these components naturally maintain correspondence between 3D labels and generated images, while prioritizing challenging samples to maximize dataset utility. Using PoseDreamer, we generate more than 500,000 high-quality synthetic samples, achieving a 76% improvement in image-quality metrics compared to rendering-based datasets. Models trained on PoseDreamer achieve performance comparable to or superior to those trained on real-world and traditional synthetic datasets. In addition, combining PoseDreamer with synthetic datasets results in better performance than combining real-world and synthetic datasets, demonstrating the complementary nature of our dataset. We will release the full dataset and generation code.

PoseDreamer : Pipeline de génération de données humaines évolutif et photoréaliste avec modèles de diffusion

PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

Résumé

Support