ChatPaper.aiChatPaper

Управляемое создание изображений людей с персонализированной одеждой различных типов

Controllable Human Image Generation with Personalized Multi-Garments

November 25, 2024
Авторы: Yisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin
cs.AI

Аннотация

Мы представляем BootComp, новый фреймворк на основе моделей диффузии текста в изображение для контролируемой генерации изображений людей с несколькими ссылочными предметами одежды. Здесь основным узким местом является сбор данных для обучения: сбор крупномасштабного набора данных изображений высокого качества ссылочных предметов одежды на каждого человека представляет собой довольно сложную задачу, то есть в идеале необходимо вручную собирать каждое фото предмета одежды, надетого каждым человеком. Для решения этой проблемы мы предлагаем конвейер генерации данных для создания большого синтетического набора данных, состоящего из пар человек-несколько предметов одежды, путем введения модели для извлечения любых изображений ссылочных предметов одежды из каждого изображения человека. Для обеспечения качества данных мы также предлагаем стратегию фильтрации для удаления нежелательных сгенерированных данных на основе измерения восприимчивых сходств между предметом одежды, представленным на изображении человека, и извлеченным предметом одежды. Наконец, используя созданный синтетический набор данных, мы обучаем модель диффузии с двумя параллельными путями денойзинга, которые используют несколько изображений предметов одежды в качестве условий для генерации изображений людей с сохранением их мелких деталей. Мы также показываем широкую применимость нашего фреймворка, адаптируя его к различным типам генерации на основе ссылок в области моды, включая виртуальную примерку и контролируемую генерацию изображений людей с другими условиями, например, позой, лицом и т. д.
English
We present BootComp, a novel framework based on text-to-image diffusion models for controllable human image generation with multiple reference garments. Here, the main bottleneck is data acquisition for training: collecting a large-scale dataset of high-quality reference garment images per human subject is quite challenging, i.e., ideally, one needs to manually gather every single garment photograph worn by each human. To address this, we propose a data generation pipeline to construct a large synthetic dataset, consisting of human and multiple-garment pairs, by introducing a model to extract any reference garment images from each human image. To ensure data quality, we also propose a filtering strategy to remove undesirable generated data based on measuring perceptual similarities between the garment presented in human image and extracted garment. Finally, by utilizing the constructed synthetic dataset, we train a diffusion model having two parallel denoising paths that use multiple garment images as conditions to generate human images while preserving their fine-grained details. We further show the wide-applicability of our framework by adapting it to different types of reference-based generation in the fashion domain, including virtual try-on, and controllable human image generation with other conditions, e.g., pose, face, etc.

Summary

AI-Generated Summary

PDF42November 27, 2024