Улучшите свою модель генерации изображений людей с помощью оптимизации прямых предпочтений на основе обратной связи от ИИ

Аннотация

Генерация высококачественных изображений людей с использованием методов преобразования текста в изображение (T2I) является важной, но сложной задачей. В отличие от генерации изображений общего характера, синтез изображений человека должен соответствовать строгим критериям, связанным с позой, анатомией и соответствием текстовым описаниям, что делает достижение реалистичных результатов особенно трудным. Недавние достижения в области T2I-генерации на основе диффузионных моделей показали перспективность, однако остаются проблемы в удовлетворении специфических требований, связанных с изображением человека. В данной статье мы представляем новый подход, специально разработанный для генерации изображений людей с использованием оптимизации прямых предпочтений (Direct Preference Optimization, DPO). В частности, мы предлагаем эффективный метод создания специализированного набора данных DPO для обучения моделей генерации изображений человека без необходимости дорогостоящего сбора обратной связи от людей. Мы также предлагаем модифицированную функцию потерь, которая улучшает процесс обучения DPO, минимизируя артефакты и повышая качество изображений. Наш метод демонстрирует свою универсальность и эффективность в генерации изображений людей, включая персонализированное преобразование текста в изображение. В ходе всесторонних оценок мы показываем, что наш подход значительно продвигает состояние генерации изображений человека, достигая превосходных результатов с точки зрения естественности анатомии, поз и соответствия тексту и изображению.

English

The generation of high-quality human images through text-to-image (T2I) methods is a significant yet challenging task. Distinct from general image generation, human image synthesis must satisfy stringent criteria related to human pose, anatomy, and alignment with textual prompts, making it particularly difficult to achieve realistic results. Recent advancements in T2I generation based on diffusion models have shown promise, yet challenges remain in meeting human-specific preferences. In this paper, we introduce a novel approach tailored specifically for human image generation utilizing Direct Preference Optimization (DPO). Specifically, we introduce an efficient method for constructing a specialized DPO dataset for training human image generation models without the need for costly human feedback. We also propose a modified loss function that enhances the DPO training process by minimizing artifacts and improving image fidelity. Our method demonstrates its versatility and effectiveness in generating human images, including personalized text-to-image generation. Through comprehensive evaluations, we show that our approach significantly advances the state of human image generation, achieving superior results in terms of natural anatomies, poses, and text-image alignment.

Улучшите свою модель генерации изображений людей с помощью оптимизации прямых предпочтений на основе обратной связи от ИИ

Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

Аннотация

Support