RePrompt: Усиленное рассуждениями повторное промптирование для генерации изображений из текста с использованием обучения с подкреплением
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning
May 23, 2025
Авторы: Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji
cs.AI
Аннотация
Несмотря на недавние успехи в генерации изображений из текста (T2I), существующие модели часто испытывают трудности с точным отражением намерений пользователя из коротких и недостаточно специфицированных запросов. Хотя предыдущие работы пытались улучшать запросы с использованием больших языковых моделей (LLM), эти методы часто создают стилистически неуместный или нереалистичный контент из-за недостаточного учета визуальной семантики и композиции реального мира. Вдохновленные последними достижениями в области рассуждений для языковых моделей, мы предлагаем RePrompt — новый фреймворк для переформулирования запросов, который вводит явные рассуждения в процесс улучшения запросов с помощью обучения с подкреплением. Вместо использования ручных правил или стилистических переписываний наш метод обучает языковую модель генерировать структурированные, саморефлексивные запросы, оптимизируя результаты на уровне изображений. Специально разработанные модели вознаграждения оценивают сгенерированные изображения с точки зрения предпочтений человека, семантического соответствия и визуальной композиции, предоставляя косвенное руководство для улучшения генерации запросов. Наш подход позволяет проводить сквозное обучение без использования аннотированных человеком данных. Эксперименты на GenEval и T2I-Compbench показывают, что RePrompt значительно повышает точность пространственного расположения и композиционную обобщаемость для различных T2I моделей, устанавливая новые результаты на уровне state-of-the-art.
English
Despite recent progress in text-to-image (T2I) generation, existing models
often struggle to faithfully capture user intentions from short and
under-specified prompts. While prior work has attempted to enhance prompts
using large language models (LLMs), these methods frequently generate stylistic
or unrealistic content due to insufficient grounding in visual semantics and
real-world composition. Inspired by recent advances in reasoning for language
model, we propose RePrompt, a novel reprompting framework that introduces
explicit reasoning into the prompt enhancement process via reinforcement
learning. Instead of relying on handcrafted rules or stylistic rewrites, our
method trains a language model to generate structured, self-reflective prompts
by optimizing for image-level outcomes. The tailored reward models assesse the
generated images in terms of human preference, semantic alignment, and visual
composition, providing indirect supervision to refine prompt generation. Our
approach enables end-to-end training without human-annotated data. Experiments
on GenEval and T2I-Compbench show that RePrompt significantly boosts spatial
layout fidelity and compositional generalization across diverse T2I backbones,
establishing new state-of-the-art results.