パーソナライズされたマルチガーメントを用いた制御可能な人物画像生成
Controllable Human Image Generation with Personalized Multi-Garments
November 25, 2024
著者: Yisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin
cs.AI
要旨
私たちは、複数の参照衣料を使用した制御可能な人物画像生成のためのテキストから画像への拡散モデルに基づく画期的なフレームワークであるBootCompを提案します。ここで、主な課題はトレーニング用のデータ取得であり、各人物ごとに高品質な参照衣料画像の大規模データセットを収集することは非常に困難です。つまり、理想的には、各人物が着用したすべての衣料写真を手動で収集する必要があります。この課題に対処するために、我々は、各人物画像から任意の参照衣料画像を抽出するモデルを導入し、人物と複数の衣料のペアからなる大規模な合成データセットを構築するデータ生成パイプラインを提案します。データの品質を確保するために、人物画像に表示される衣料と抽出された衣料との知覚的類似性を測定して、望ましくない生成データを取り除くフィルタリング戦略も提案します。最後に、構築された合成データセットを利用して、微細な詳細を保持しながら、複数の衣料画像を条件として使用する2つの並行したノイズ除去パスを持つ拡散モデルをトレーニングし、人物画像を生成します。さらに、仮想試着を含むファッション領域での異なるタイプの参照ベースの生成に私たちのフレームワークを適応させることで、その広範な適用可能性を示します。 pose、faceなどの他の条件を持つ制御可能な人物画像生成。
English
We present BootComp, a novel framework based on text-to-image diffusion
models for controllable human image generation with multiple reference
garments. Here, the main bottleneck is data acquisition for training:
collecting a large-scale dataset of high-quality reference garment images per
human subject is quite challenging, i.e., ideally, one needs to manually gather
every single garment photograph worn by each human. To address this, we propose
a data generation pipeline to construct a large synthetic dataset, consisting
of human and multiple-garment pairs, by introducing a model to extract any
reference garment images from each human image. To ensure data quality, we also
propose a filtering strategy to remove undesirable generated data based on
measuring perceptual similarities between the garment presented in human image
and extracted garment. Finally, by utilizing the constructed synthetic dataset,
we train a diffusion model having two parallel denoising paths that use
multiple garment images as conditions to generate human images while preserving
their fine-grained details. We further show the wide-applicability of our
framework by adapting it to different types of reference-based generation in
the fashion domain, including virtual try-on, and controllable human image
generation with other conditions, e.g., pose, face, etc.Summary
AI-Generated Summary