Améliorez votre propre modèle de génération d'images humaines via l'optimisation des préférences directes avec un retour d'IA

papers.abstract

La génération d'images humaines de haute qualité grâce aux méthodes de texte-à-image (T2I) constitue une tâche importante mais complexe. Contrairement à la génération d'images générales, la synthèse d'images humaines doit répondre à des critères stricts concernant la pose, l'anatomie et l'alignement avec les descriptions textuelles, ce qui rend particulièrement difficile l'obtention de résultats réalistes. Les récents progrès dans la génération T2I basée sur les modèles de diffusion montrent des résultats prometteurs, mais des défis subsistent pour répondre aux préférences spécifiques aux images humaines. Dans cet article, nous présentons une nouvelle approche spécialement conçue pour la génération d'images humaines en utilisant l'Optimisation Directe des Préférences (DPO). Plus précisément, nous introduisons une méthode efficace pour construire un ensemble de données DPO spécialisé afin d'entraîner des modèles de génération d'images humaines sans nécessiter de retours humains coûteux. Nous proposons également une fonction de perte modifiée qui améliore le processus d'entraînement DPO en minimisant les artefacts et en augmentant la fidélité des images. Notre méthode démontre sa polyvalence et son efficacité dans la génération d'images humaines, y compris la génération personnalisée de texte-à-image. Grâce à des évaluations approfondies, nous montrons que notre approche fait progresser de manière significative l'état de l'art en matière de génération d'images humaines, obtenant des résultats supérieurs en termes d'anatomies naturelles, de poses et d'alignement texte-image.

English

The generation of high-quality human images through text-to-image (T2I) methods is a significant yet challenging task. Distinct from general image generation, human image synthesis must satisfy stringent criteria related to human pose, anatomy, and alignment with textual prompts, making it particularly difficult to achieve realistic results. Recent advancements in T2I generation based on diffusion models have shown promise, yet challenges remain in meeting human-specific preferences. In this paper, we introduce a novel approach tailored specifically for human image generation utilizing Direct Preference Optimization (DPO). Specifically, we introduce an efficient method for constructing a specialized DPO dataset for training human image generation models without the need for costly human feedback. We also propose a modified loss function that enhances the DPO training process by minimizing artifacts and improving image fidelity. Our method demonstrates its versatility and effectiveness in generating human images, including personalized text-to-image generation. Through comprehensive evaluations, we show that our approach significantly advances the state of human image generation, achieving superior results in terms of natural anatomies, poses, and text-image alignment.

Améliorez votre propre modèle de génération d'images humaines via l'optimisation des préférences directes avec un retour d'IA

Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

papers.abstract

Support