Generación de Imágenes Humanas Controlables con Prendas Múltiples Personalizadas
Controllable Human Image Generation with Personalized Multi-Garments
November 25, 2024
Autores: Yisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin
cs.AI
Resumen
Presentamos BootComp, un nuevo marco basado en modelos de difusión de texto a imagen para la generación de imágenes humanas controlables con múltiples prendas de referencia. Aquí, el principal cuello de botella es la adquisición de datos para el entrenamiento: recolectar un conjunto de datos a gran escala de imágenes de alta calidad de prendas de referencia por sujeto humano es bastante desafiante, es decir, idealmente, se necesita recopilar manualmente cada fotografía de prenda usada por cada humano. Para abordar esto, proponemos un pipeline de generación de datos para construir un amplio conjunto de datos sintéticos, que consiste en pares de humanos y múltiples prendas, mediante la introducción de un modelo para extraer cualquier imagen de prenda de referencia de cada imagen humana. Para garantizar la calidad de los datos, también proponemos una estrategia de filtrado para eliminar datos generados no deseados basados en la medición de similitudes perceptuales entre la prenda presentada en la imagen humana y la prenda extraída. Finalmente, mediante la utilización del conjunto de datos sintéticos construido, entrenamos un modelo de difusión que tiene dos rutas de eliminación de ruido paralelas que utilizan múltiples imágenes de prendas como condiciones para generar imágenes humanas mientras se preservan sus detalles detallados. Además, demostramos la amplia aplicabilidad de nuestro marco adaptándolo a diferentes tipos de generación basada en referencia en el dominio de la moda, incluyendo la prueba virtual de prendas y la generación de imágenes humanas controlables con otras condiciones, como la pose, el rostro, etc.
English
We present BootComp, a novel framework based on text-to-image diffusion
models for controllable human image generation with multiple reference
garments. Here, the main bottleneck is data acquisition for training:
collecting a large-scale dataset of high-quality reference garment images per
human subject is quite challenging, i.e., ideally, one needs to manually gather
every single garment photograph worn by each human. To address this, we propose
a data generation pipeline to construct a large synthetic dataset, consisting
of human and multiple-garment pairs, by introducing a model to extract any
reference garment images from each human image. To ensure data quality, we also
propose a filtering strategy to remove undesirable generated data based on
measuring perceptual similarities between the garment presented in human image
and extracted garment. Finally, by utilizing the constructed synthetic dataset,
we train a diffusion model having two parallel denoising paths that use
multiple garment images as conditions to generate human images while preserving
their fine-grained details. We further show the wide-applicability of our
framework by adapting it to different types of reference-based generation in
the fashion domain, including virtual try-on, and controllable human image
generation with other conditions, e.g., pose, face, etc.Summary
AI-Generated Summary