Melhore Seu Próprio Modelo de Geração de Imagens Humanas via Otimização de Preferência Direta com Feedback de IA

Resumo

A geração de imagens humanas de alta qualidade por meio de métodos de texto-para-imagem (T2I) é uma tarefa significativa, porém desafiadora. Diferente da geração de imagens em geral, a síntese de imagens humanas deve atender a critérios rigorosos relacionados à pose, anatomia e alinhamento com prompts textuais, tornando particularmente difícil alcançar resultados realistas. Avanços recentes na geração T2I baseada em modelos de difusão têm mostrado promessas, mas desafios permanecem em atender preferências específicas para imagens humanas. Neste artigo, introduzimos uma abordagem inovadora projetada especificamente para a geração de imagens humanas utilizando Otimização de Preferência Direta (DPO). Especificamente, apresentamos um método eficiente para a construção de um conjunto de dados DPO especializado para treinar modelos de geração de imagens humanas sem a necessidade de feedback humano custoso. Também propomos uma função de perda modificada que aprimora o processo de treinamento DPO, minimizando artefatos e melhorando a fidelidade da imagem. Nosso método demonstra sua versatilidade e eficácia na geração de imagens humanas, incluindo a geração personalizada de texto-para-imagem. Por meio de avaliações abrangentes, mostramos que nossa abordagem avança significativamente o estado da arte na geração de imagens humanas, alcançando resultados superiores em termos de anatomias naturais, poses e alinhamento texto-imagem.

English

The generation of high-quality human images through text-to-image (T2I) methods is a significant yet challenging task. Distinct from general image generation, human image synthesis must satisfy stringent criteria related to human pose, anatomy, and alignment with textual prompts, making it particularly difficult to achieve realistic results. Recent advancements in T2I generation based on diffusion models have shown promise, yet challenges remain in meeting human-specific preferences. In this paper, we introduce a novel approach tailored specifically for human image generation utilizing Direct Preference Optimization (DPO). Specifically, we introduce an efficient method for constructing a specialized DPO dataset for training human image generation models without the need for costly human feedback. We also propose a modified loss function that enhances the DPO training process by minimizing artifacts and improving image fidelity. Our method demonstrates its versatility and effectiveness in generating human images, including personalized text-to-image generation. Through comprehensive evaluations, we show that our approach significantly advances the state of human image generation, achieving superior results in terms of natural anatomies, poses, and text-image alignment.

Melhore Seu Próprio Modelo de Geração de Imagens Humanas via Otimização de Preferência Direta com Feedback de IA

Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

Resumo

Summary

Support

Support