ChatPaper.aiChatPaper

Génération d'images humaines contrôlables avec des vêtements multiples personnalisés

Controllable Human Image Generation with Personalized Multi-Garments

November 25, 2024
Auteurs: Yisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin
cs.AI

Résumé

Nous présentons BootComp, un nouveau cadre basé sur des modèles de diffusion texte-vers-image pour la génération d'images humaines contrôlables avec plusieurs vêtements de référence. Ici, le principal goulot d'étranglement est l'acquisition de données pour l'entraînement : collecter un ensemble de données à grande échelle d'images de vêtements de référence de haute qualité par sujet humain est assez difficile, c'est-à-dire, idéalement, il est nécessaire de rassembler manuellement chaque photographie de vêtement portée par chaque individu. Pour résoudre ce problème, nous proposons un pipeline de génération de données pour construire un grand ensemble de données synthétiques, composé de paires humain et vêtement multiples, en introduisant un modèle pour extraire toutes les images de vêtements de référence de chaque image humaine. Pour garantir la qualité des données, nous proposons également une stratégie de filtrage pour éliminer les données générées indésirables en mesurant les similarités perceptuelles entre le vêtement présenté dans l'image humaine et le vêtement extrait. Enfin, en utilisant l'ensemble de données synthétiques construit, nous entraînons un modèle de diffusion ayant deux chemins de débruitage parallèles qui utilisent plusieurs images de vêtements comme conditions pour générer des images humaines tout en préservant leurs détails fins. Nous montrons en outre la grande applicabilité de notre cadre en l'adaptant à différents types de génération basée sur des références dans le domaine de la mode, y compris l'essayage virtuel, et la génération d'images humaines contrôlables avec d'autres conditions, par exemple, la pose, le visage, etc.
English
We present BootComp, a novel framework based on text-to-image diffusion models for controllable human image generation with multiple reference garments. Here, the main bottleneck is data acquisition for training: collecting a large-scale dataset of high-quality reference garment images per human subject is quite challenging, i.e., ideally, one needs to manually gather every single garment photograph worn by each human. To address this, we propose a data generation pipeline to construct a large synthetic dataset, consisting of human and multiple-garment pairs, by introducing a model to extract any reference garment images from each human image. To ensure data quality, we also propose a filtering strategy to remove undesirable generated data based on measuring perceptual similarities between the garment presented in human image and extracted garment. Finally, by utilizing the constructed synthetic dataset, we train a diffusion model having two parallel denoising paths that use multiple garment images as conditions to generate human images while preserving their fine-grained details. We further show the wide-applicability of our framework by adapting it to different types of reference-based generation in the fashion domain, including virtual try-on, and controllable human image generation with other conditions, e.g., pose, face, etc.

Summary

AI-Generated Summary

PDF42November 27, 2024