AIフィードバックを用いた直接選好最適化による独自の人間画像生成モデルの強化
Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback
May 30, 2024
著者: Sanghyeon Na, Yonggyu Kim, Hyunjoon Lee
cs.AI
要旨
テキストから画像(T2I)生成手法を用いた高品質な人間画像の生成は、重要な課題であると同時に非常に困難なタスクです。一般的な画像生成とは異なり、人間画像の合成では、人間のポーズ、解剖学的構造、テキストプロンプトとの整合性といった厳格な基準を満たす必要があり、現実的な結果を得ることが特に難しいとされています。拡散モデルに基づくT2I生成の最近の進展は有望ですが、人間特有の嗜好を満たす点では依然として課題が残っています。本論文では、Direct Preference Optimization(DPO)を活用した、人間画像生成に特化した新しいアプローチを提案します。具体的には、高コストな人間のフィードバックを必要とせずに、人間画像生成モデルのトレーニング用に特化したDPOデータセットを構築する効率的な手法を紹介します。また、アーティファクトを最小化し、画像の忠実度を向上させることでDPOトレーニングプロセスを強化する修正された損失関数を提案します。本手法は、パーソナライズされたテキストから画像生成を含む人間画像生成において、その汎用性と有効性を実証しています。包括的な評価を通じて、本アプローチが自然な解剖学的構造、ポーズ、テキストと画像の整合性の点で優れた結果を達成し、人間画像生成の現状を大きく前進させることを示します。
English
The generation of high-quality human images through text-to-image (T2I)
methods is a significant yet challenging task. Distinct from general image
generation, human image synthesis must satisfy stringent criteria related to
human pose, anatomy, and alignment with textual prompts, making it particularly
difficult to achieve realistic results. Recent advancements in T2I generation
based on diffusion models have shown promise, yet challenges remain in meeting
human-specific preferences. In this paper, we introduce a novel approach
tailored specifically for human image generation utilizing Direct Preference
Optimization (DPO). Specifically, we introduce an efficient method for
constructing a specialized DPO dataset for training human image generation
models without the need for costly human feedback. We also propose a modified
loss function that enhances the DPO training process by minimizing artifacts
and improving image fidelity. Our method demonstrates its versatility and
effectiveness in generating human images, including personalized text-to-image
generation. Through comprehensive evaluations, we show that our approach
significantly advances the state of human image generation, achieving superior
results in terms of natural anatomies, poses, and text-image alignment.Summary
AI-Generated Summary