Controleerbare menselijke beeldgeneratie met gepersonaliseerde multi-kledingstukken.
Controllable Human Image Generation with Personalized Multi-Garments
November 25, 2024
Auteurs: Yisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin
cs.AI
Samenvatting
We presenteren BootComp, een nieuw raamwerk gebaseerd op tekst-naar-afbeelding diffusiemodellen voor controleerbare menselijke afbeeldingsgeneratie met meerdere referentiekledingstukken. Hier is het belangrijkste knelpunt de gegevensverwerving voor training: het verzamelen van een grootschalige dataset van hoogwaardige referentiekledingafbeeldingen per menselijk onderwerp is behoorlijk uitdagend, dat wil zeggen, idealiter moet men elke afzonderlijke kledingfoto die door elke persoon wordt gedragen, handmatig verzamelen. Om dit aan te pakken, stellen we een gegevensgeneratiepijplijn voor om een grote synthetische dataset te construeren, bestaande uit menselijke en meerdere kledingstukparen, door een model te introduceren om elke referentiekledingafbeelding uit elke menselijke afbeelding te extraheren. Om de gegevenskwaliteit te waarborgen, stellen we ook een filterstrategie voor om ongewenste gegenereerde gegevens te verwijderen op basis van het meten van perceptuele overeenkomsten tussen het kledingstuk dat wordt gepresenteerd in de menselijke afbeelding en het geëxtraheerde kledingstuk. Ten slotte trainen we, door gebruik te maken van de geconstrueerde synthetische dataset, een diffusiemodel met twee parallelle denoisingspaden die meerdere kledingafbeeldingen als voorwaarden gebruiken om menselijke afbeeldingen te genereren terwijl hun fijne details behouden blijven. We tonen verder de brede toepasbaarheid van ons raamwerk door het aan te passen aan verschillende soorten referentiegebaseerde generatie in de modedomein, waaronder virtueel passen en controleerbare menselijke afbeeldingsgeneratie met andere voorwaarden, zoals houding, gezicht, enz.
English
We present BootComp, a novel framework based on text-to-image diffusion
models for controllable human image generation with multiple reference
garments. Here, the main bottleneck is data acquisition for training:
collecting a large-scale dataset of high-quality reference garment images per
human subject is quite challenging, i.e., ideally, one needs to manually gather
every single garment photograph worn by each human. To address this, we propose
a data generation pipeline to construct a large synthetic dataset, consisting
of human and multiple-garment pairs, by introducing a model to extract any
reference garment images from each human image. To ensure data quality, we also
propose a filtering strategy to remove undesirable generated data based on
measuring perceptual similarities between the garment presented in human image
and extracted garment. Finally, by utilizing the constructed synthetic dataset,
we train a diffusion model having two parallel denoising paths that use
multiple garment images as conditions to generate human images while preserving
their fine-grained details. We further show the wide-applicability of our
framework by adapting it to different types of reference-based generation in
the fashion domain, including virtual try-on, and controllable human image
generation with other conditions, e.g., pose, face, etc.Summary
AI-Generated Summary