PoseDreamer: Pipeline Escalável e Fotorrealista para Geração de Dados Humanos com Modelos de Difusão

Resumo

A aquisição de conjuntos de dados anotados para a estimativa de malha humana 3D é desafiadora devido às ambiguidades de profundidade e à dificuldade inerente de anotar geometria 3D a partir de imagens monoculares. Os conjuntos de dados existentes são reais, com geometria 3D anotada manualmente e escala limitada, ou sintéticos, renderizados a partir de motores 3D que fornecem anotações precisas, mas sofrem com fotorealismo limitado, baixa diversidade e altos custos de produção. Neste trabalho, exploramos um terceiro caminho: dados gerados. Apresentamos o PoseDreamer, um *pipeline* inovador que aproveita modelos de difusão para gerar conjuntos de dados sintéticos em larga escala com anotações de malha 3D. Nossa abordagem combina geração de imagem controlável com Otimização de Preferência Direta para alinhamento de controle, mineração curricular de amostras difíceis e filtragem de qualidade multiestágio. Juntos, esses componentes mantêm naturalmente a correspondência entre as anotações 3D e as imagens geradas, priorizando amostras desafiadoras para maximizar a utilidade do conjunto de dados. Usando o PoseDreamer, geramos mais de 500.000 amostras sintéticas de alta qualidade, alcançando uma melhoria de 76% nas métricas de qualidade de imagem em comparação com conjuntos de dados baseados em renderização. Modelos treinados no PoseDreamer alcançam desempenho comparável ou superior aos treinados em conjuntos de dados do mundo real e sintéticos tradicionais. Além disso, combinar o PoseDreamer com conjuntos de dados sintéticos resulta em melhor desempenho do que combinar conjuntos de dados do mundo real e sintéticos, demonstrando a natureza complementar do nosso conjunto de dados. Disponibilizaremos o conjunto de dados completo e o código de geração.

English

Acquiring labeled datasets for 3D human mesh estimation is challenging due to depth ambiguities and the inherent difficulty of annotating 3D geometry from monocular images. Existing datasets are either real, with manually annotated 3D geometry and limited scale, or synthetic, rendered from 3D engines that provide precise labels but suffer from limited photorealism, low diversity, and high production costs. In this work, we explore a third path: generated data. We introduce PoseDreamer, a novel pipeline that leverages diffusion models to generate large-scale synthetic datasets with 3D mesh annotations. Our approach combines controllable image generation with Direct Preference Optimization for control alignment, curriculum-based hard sample mining, and multi-stage quality filtering. Together, these components naturally maintain correspondence between 3D labels and generated images, while prioritizing challenging samples to maximize dataset utility. Using PoseDreamer, we generate more than 500,000 high-quality synthetic samples, achieving a 76% improvement in image-quality metrics compared to rendering-based datasets. Models trained on PoseDreamer achieve performance comparable to or superior to those trained on real-world and traditional synthetic datasets. In addition, combining PoseDreamer with synthetic datasets results in better performance than combining real-world and synthetic datasets, demonstrating the complementary nature of our dataset. We will release the full dataset and generation code.

PoseDreamer: Pipeline Escalável e Fotorrealista para Geração de Dados Humanos com Modelos de Difusão

PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

Resumo

Support