Potencia tu propio modelo de generación de imágenes humanas mediante optimización directa de preferencias con retroalimentación de IA.

Resumen

La generación de imágenes humanas de alta calidad mediante métodos de texto a imagen (T2I) es una tarea significativa pero desafiante. A diferencia de la generación general de imágenes, la síntesis de imágenes humanas debe cumplir criterios estrictos relacionados con la pose, la anatomía y la alineación con las indicaciones textuales, lo que hace especialmente difícil lograr resultados realistas. Los avances recientes en la generación T2I basados en modelos de difusión han mostrado promesas, aunque persisten desafíos para satisfacer las preferencias específicas en imágenes humanas. En este artículo, presentamos un enfoque novedoso diseñado específicamente para la generación de imágenes humanas utilizando Optimización Directa de Preferencias (DPO). En concreto, introducimos un método eficiente para construir un conjunto de datos DPO especializado para entrenar modelos de generación de imágenes humanas sin la necesidad de costosa retroalimentación humana. También proponemos una función de pérdida modificada que mejora el proceso de entrenamiento DPO al minimizar artefactos y mejorar la fidelidad de la imagen. Nuestro método demuestra su versatilidad y efectividad en la generación de imágenes humanas, incluyendo la generación personalizada de texto a imagen. A través de evaluaciones exhaustivas, mostramos que nuestro enfoque avanza significativamente el estado del arte en la generación de imágenes humanas, logrando resultados superiores en términos de anatomías naturales, poses y alineación texto-imagen.

English

The generation of high-quality human images through text-to-image (T2I) methods is a significant yet challenging task. Distinct from general image generation, human image synthesis must satisfy stringent criteria related to human pose, anatomy, and alignment with textual prompts, making it particularly difficult to achieve realistic results. Recent advancements in T2I generation based on diffusion models have shown promise, yet challenges remain in meeting human-specific preferences. In this paper, we introduce a novel approach tailored specifically for human image generation utilizing Direct Preference Optimization (DPO). Specifically, we introduce an efficient method for constructing a specialized DPO dataset for training human image generation models without the need for costly human feedback. We also propose a modified loss function that enhances the DPO training process by minimizing artifacts and improving image fidelity. Our method demonstrates its versatility and effectiveness in generating human images, including personalized text-to-image generation. Through comprehensive evaluations, we show that our approach significantly advances the state of human image generation, achieving superior results in terms of natural anatomies, poses, and text-image alignment.

Potencia tu propio modelo de generación de imágenes humanas mediante optimización directa de preferencias con retroalimentación de IA.

Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

Resumen

Support