Versterk Je Eigen Model voor Menselijke Beeldgeneratie via Directe Voorkeursoptimalisatie met AI-Feedback

Samenvatting

Het genereren van hoogwaardige menselijke afbeeldingen via tekst-naar-beeld (T2I) methoden is een belangrijke maar uitdagende taak. In tegenstelling tot algemene beeldgeneratie moet de synthese van menselijke afbeeldingen voldoen aan strikte criteria met betrekking tot menselijke houding, anatomie en afstemming op tekstuele prompts, wat het bijzonder moeilijk maakt om realistische resultaten te bereiken. Recente vooruitgang in T2I-generatie op basis van diffusiemodellen heeft veelbelovende resultaten laten zien, maar er blijven uitdagingen bestaan in het voldoen aan mens-specifieke voorkeuren. In dit artikel introduceren we een nieuwe aanpak die specifiek is afgestemd op de generatie van menselijke afbeeldingen door gebruik te maken van Direct Preference Optimization (DPO). We introduceren een efficiënte methode voor het construeren van een gespecialiseerde DPO-dataset voor het trainen van modellen voor menselijke beeldgeneratie zonder de noodzaak van kostbaar menselijk feedback. We stellen ook een aangepaste verliesfunctie voor die het DPO-trainingsproces verbetert door artefacten te minimaliseren en de beeldkwaliteit te verbeteren. Onze methode toont haar veelzijdigheid en effectiviteit in het genereren van menselijke afbeeldingen, inclusief gepersonaliseerde tekst-naar-beeld generatie. Door middel van uitgebreide evaluaties laten we zien dat onze aanpak de stand van zaken in menselijke beeldgeneratie aanzienlijk vooruithelpt, met superieure resultaten op het gebied van natuurlijke anatomieën, houdingen en tekst-beeld afstemming.

English

The generation of high-quality human images through text-to-image (T2I) methods is a significant yet challenging task. Distinct from general image generation, human image synthesis must satisfy stringent criteria related to human pose, anatomy, and alignment with textual prompts, making it particularly difficult to achieve realistic results. Recent advancements in T2I generation based on diffusion models have shown promise, yet challenges remain in meeting human-specific preferences. In this paper, we introduce a novel approach tailored specifically for human image generation utilizing Direct Preference Optimization (DPO). Specifically, we introduce an efficient method for constructing a specialized DPO dataset for training human image generation models without the need for costly human feedback. We also propose a modified loss function that enhances the DPO training process by minimizing artifacts and improving image fidelity. Our method demonstrates its versatility and effectiveness in generating human images, including personalized text-to-image generation. Through comprehensive evaluations, we show that our approach significantly advances the state of human image generation, achieving superior results in terms of natural anatomies, poses, and text-image alignment.

Versterk Je Eigen Model voor Menselijke Beeldgeneratie via Directe Voorkeursoptimalisatie met AI-Feedback

Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

Samenvatting

Support