PoseDreamer: Масштабируемый и фотореалистичный конвейер генерации данных о человеке на основе диффузионных моделей

Аннотация

Получение размеченных наборов данных для оценки трехмерной сетки человека является сложной задачей из-за неоднозначностей глубины и присущих трудностей аннотирования 3D-геометрии с монокулярных изображений. Существующие наборы данных либо являются реальными, с ручной разметкой 3D-геометрии и ограниченного масштаба, либо синтетическими — визуализированными с помощью 3D-движков, которые предоставляют точные метки, но страдают от ограниченного фотореализма, низкого разнообразия и высоких затрат на производство. В данной работе мы исследуем третий путь: сгенерированные данные. Мы представляем PoseDreamer — новый конвейер, который использует диффузионные модели для создания крупномасштабных синтетических наборов данных с аннотациями 3D-сетки. Наш подход сочетает контролируемую генерацию изображений с оптимизацией прямых предпочтений для согласования управления, curriculum-ориентированным извлечением сложных примеров и многоэтапной фильтрацией по качеству. Вместе эти компоненты естественным образом поддерживают соответствие между 3D-метками и сгенерированными изображениями, одновременно уделяя приоритетное внимание сложным примерам для максимизации полезности набора данных. Используя PoseDreamer, мы сгенерировали более 500 000 высококачественных синтетических примеров, достигнув 76%-го улучшения по метрикам качества изображения по сравнению с наборами данных на основе рендеринга. Модели, обученные на PoseDreamer, демонстрируют производительность, сопоставимую или превосходящую модели, обученные на реальных и традиционных синтетических наборах данных. Кроме того, комбинирование PoseDreamer с синтетическими наборами данных дает лучшие результаты, чем комбинирование реальных и синтетических наборов данных, что демонстрирует комплементарный характер нашего набора данных. Мы опубликуем полный набор данных и код для генерации.

English

Acquiring labeled datasets for 3D human mesh estimation is challenging due to depth ambiguities and the inherent difficulty of annotating 3D geometry from monocular images. Existing datasets are either real, with manually annotated 3D geometry and limited scale, or synthetic, rendered from 3D engines that provide precise labels but suffer from limited photorealism, low diversity, and high production costs. In this work, we explore a third path: generated data. We introduce PoseDreamer, a novel pipeline that leverages diffusion models to generate large-scale synthetic datasets with 3D mesh annotations. Our approach combines controllable image generation with Direct Preference Optimization for control alignment, curriculum-based hard sample mining, and multi-stage quality filtering. Together, these components naturally maintain correspondence between 3D labels and generated images, while prioritizing challenging samples to maximize dataset utility. Using PoseDreamer, we generate more than 500,000 high-quality synthetic samples, achieving a 76% improvement in image-quality metrics compared to rendering-based datasets. Models trained on PoseDreamer achieve performance comparable to or superior to those trained on real-world and traditional synthetic datasets. In addition, combining PoseDreamer with synthetic datasets results in better performance than combining real-world and synthetic datasets, demonstrating the complementary nature of our dataset. We will release the full dataset and generation code.

PoseDreamer: Масштабируемый и фотореалистичный конвейер генерации данных о человеке на основе диффузионных моделей

PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

Аннотация

Support