PoseDreamer: Skalierbare und fotorealistische Pipeline zur Generierung menschlicher Daten mit Diffusionsmodellen

Zusammenfassung

Die Erstellung annotierter Datensätze für die 3D-Mesh-Schätzung des menschlichen Körpers ist aufgrund von Tiefenmehrdeutigkeiten und der inhärenten Schwierigkeit, 3D-Geometrie aus monokularen Bildern zu annotieren, eine Herausforderung. Bestehende Datensätze sind entweder real, mit manuell annotierter 3D-Geometrie und begrenztem Umfang, oder synthetisch, gerendert aus 3D-Engines, die präzise Labels liefern, jedoch unter eingeschränktem Fotorealismus, geringer Diversität und hohen Produktionskosten leiden. In dieser Arbeit erkunden wir einen dritten Weg: generierte Daten. Wir stellen PoseDreamer vor, eine neuartige Pipeline, die Diffusionsmodelle nutzt, um groß angelegte synthetische Datensätze mit 3D-Mesh-Annotationen zu generieren. Unser Ansatz kombiniert kontrollierbare Bildgenerierung mit Direct Preference Optimization für die Steuerungsabstimmung, curriculum-basiertes Mining schwieriger Stichproben und mehrstufige Qualitätsfilterung. Diese Komponenten gewährleisten gemeinsam eine natürliche Korrespondenz zwischen 3D-Labels und generierten Bildern, priorisieren dabei jedoch herausfordernde Stichproben, um den Nutzen des Datensatzes zu maximieren. Mit PoseDreamer generieren wir mehr als 500.000 hochwertige synthetische Stichproben und erreichen eine 76%ige Verbesserung bei Bildqualitätsmetriken im Vergleich zu renderbasierten Datensätzen. Modelle, die mit PoseDreamer trainiert werden, erreichen eine Leistung, die vergleichbar oder besser ist als die von Modellen, die mit realen und traditionellen synthetischen Datensätzen trainiert wurden. Darüber hinaus führt die Kombination von PoseDreamer mit synthetischen Datensätzen zu einer besseren Leistung als die Kombination von realen und synthetischen Datensätzen, was den komplementären Charakter unseres Datensatzes demonstriert. Wir werden den vollständigen Datensatz und den Generierungscode veröffentlichen.

English

Acquiring labeled datasets for 3D human mesh estimation is challenging due to depth ambiguities and the inherent difficulty of annotating 3D geometry from monocular images. Existing datasets are either real, with manually annotated 3D geometry and limited scale, or synthetic, rendered from 3D engines that provide precise labels but suffer from limited photorealism, low diversity, and high production costs. In this work, we explore a third path: generated data. We introduce PoseDreamer, a novel pipeline that leverages diffusion models to generate large-scale synthetic datasets with 3D mesh annotations. Our approach combines controllable image generation with Direct Preference Optimization for control alignment, curriculum-based hard sample mining, and multi-stage quality filtering. Together, these components naturally maintain correspondence between 3D labels and generated images, while prioritizing challenging samples to maximize dataset utility. Using PoseDreamer, we generate more than 500,000 high-quality synthetic samples, achieving a 76% improvement in image-quality metrics compared to rendering-based datasets. Models trained on PoseDreamer achieve performance comparable to or superior to those trained on real-world and traditional synthetic datasets. In addition, combining PoseDreamer with synthetic datasets results in better performance than combining real-world and synthetic datasets, demonstrating the complementary nature of our dataset. We will release the full dataset and generation code.

PoseDreamer: Skalierbare und fotorealistische Pipeline zur Generierung menschlicher Daten mit Diffusionsmodellen

PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

Zusammenfassung

Support