ChatPaper.aiChatPaper

Steigern Sie Ihr eigenes Modell zur menschlichen Bildgeneration durch direkte Präferenzoptimierung mit KI-Feedback

Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

May 30, 2024
Autoren: Sanghyeon Na, Yonggyu Kim, Hyunjoon Lee
cs.AI

Zusammenfassung

Die Erzeugung hochwertiger menschlicher Bilder durch Text-zu-Bild (T2I)-Methoden ist eine bedeutende, aber herausfordernde Aufgabe. Im Gegensatz zur allgemeinen Bildgenerierung muss die Synthese menschlicher Bilder strenge Kriterien in Bezug auf menschliche Pose, Anatomie und Übereinstimmung mit textuellen Eingaben erfüllen, was die Erzielung realistischer Ergebnisse besonders schwierig macht. Jüngste Fortschritte in der T2I-Generierung basierend auf Diffusionsmodellen haben vielversprechende Ergebnisse gezeigt, doch bestehen weiterhin Herausforderungen bei der Erfüllung menschlicher spezifischer Präferenzen. In diesem Artikel stellen wir einen neuartigen Ansatz vor, der speziell für die Generierung menschlicher Bilder unter Verwendung von Direct Preference Optimization (DPO) entwickelt wurde. Insbesondere führen wir eine effiziente Methode zur Erstellung eines spezialisierten DPO-Datensatzes für das Training von Modellen zur menschlichen Bildgenerierung ein, ohne auf kostspieliges menschliches Feedback angewiesen zu sein. Wir schlagen außerdem eine modifizierte Verlustfunktion vor, die den DPO-Trainingsprozess verbessert, indem Artefakte minimiert und die Bildtreue erhöht wird. Unsere Methode zeigt ihre Vielseitigkeit und Effektivität bei der Generierung menschlicher Bilder, einschließlich personalisierter Text-zu-Bild-Generierung. Durch umfassende Evaluierungen zeigen wir, dass unser Ansatz den Stand der menschlichen Bildgenerierung erheblich vorantreibt und überlegene Ergebnisse in Bezug auf natürliche Anatomien, Posen und Text-Bild-Übereinstimmung erzielt.
English
The generation of high-quality human images through text-to-image (T2I) methods is a significant yet challenging task. Distinct from general image generation, human image synthesis must satisfy stringent criteria related to human pose, anatomy, and alignment with textual prompts, making it particularly difficult to achieve realistic results. Recent advancements in T2I generation based on diffusion models have shown promise, yet challenges remain in meeting human-specific preferences. In this paper, we introduce a novel approach tailored specifically for human image generation utilizing Direct Preference Optimization (DPO). Specifically, we introduce an efficient method for constructing a specialized DPO dataset for training human image generation models without the need for costly human feedback. We also propose a modified loss function that enhances the DPO training process by minimizing artifacts and improving image fidelity. Our method demonstrates its versatility and effectiveness in generating human images, including personalized text-to-image generation. Through comprehensive evaluations, we show that our approach significantly advances the state of human image generation, achieving superior results in terms of natural anatomies, poses, and text-image alignment.

Summary

AI-Generated Summary

PDF223April 3, 2025