ChatPaper.aiChatPaper

AI 피드백을 통한 직접 선호도 최적화로 나만의 인간 이미지 생성 모델 강화하기

Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

May 30, 2024
저자: Sanghyeon Na, Yonggyu Kim, Hyunjoon Lee
cs.AI

초록

텍스트-이미지(T2I) 방법을 통한 고품질 인간 이미지 생성은 중요하면서도 도전적인 과제입니다. 일반적인 이미지 생성과는 달리, 인간 이미지 합성은 인간의 자세, 해부학적 구조, 그리고 텍스트 프롬프트와의 정렬과 같은 엄격한 기준을 충족해야 하기 때문에 사실적인 결과를 달성하기가 특히 어렵습니다. 확산 모델(diffusion models)을 기반으로 한 최근의 T2I 생성 기술 발전은 유망한 결과를 보여주고 있지만, 인간 특화 선호도를 충족시키는 데는 여전히 과제가 남아 있습니다. 본 논문에서는 Direct Preference Optimization(DPO)을 활용하여 인간 이미지 생성을 위해 특화된 새로운 접근 방식을 소개합니다. 구체적으로, 우리는 비용이 많이 드는 인간 피드백 없이도 인간 이미지 생성 모델을 훈련하기 위한 전용 DPO 데이터셋을 구축하는 효율적인 방법을 제안합니다. 또한, 아티팩트를 최소화하고 이미지 충실도를 향상시켜 DPO 훈련 과정을 개선하는 수정된 손실 함수를 제안합니다. 우리의 방법은 개인화된 텍스트-이미지 생성을 포함한 인간 이미지 생성에서의 다양성과 효과성을 입증합니다. 포괄적인 평가를 통해, 우리의 접근 방식이 자연스러운 해부학적 구조, 자세, 그리고 텍스트-이미지 정렬 측면에서 우수한 결과를 달성하며 인간 이미지 생성의 최신 기술을 크게 발전시킨다는 것을 보여줍니다.
English
The generation of high-quality human images through text-to-image (T2I) methods is a significant yet challenging task. Distinct from general image generation, human image synthesis must satisfy stringent criteria related to human pose, anatomy, and alignment with textual prompts, making it particularly difficult to achieve realistic results. Recent advancements in T2I generation based on diffusion models have shown promise, yet challenges remain in meeting human-specific preferences. In this paper, we introduce a novel approach tailored specifically for human image generation utilizing Direct Preference Optimization (DPO). Specifically, we introduce an efficient method for constructing a specialized DPO dataset for training human image generation models without the need for costly human feedback. We also propose a modified loss function that enhances the DPO training process by minimizing artifacts and improving image fidelity. Our method demonstrates its versatility and effectiveness in generating human images, including personalized text-to-image generation. Through comprehensive evaluations, we show that our approach significantly advances the state of human image generation, achieving superior results in terms of natural anatomies, poses, and text-image alignment.

Summary

AI-Generated Summary

PDF223April 3, 2025