ChatPaper.aiChatPaper

RePrompt: Усиленное рассуждениями повторное промптирование для генерации изображений из текста с использованием обучения с подкреплением

RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning

May 23, 2025
Авторы: Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji
cs.AI

Аннотация

Несмотря на недавние успехи в генерации изображений из текста (T2I), существующие модели часто испытывают трудности с точным отражением намерений пользователя из коротких и недостаточно специфицированных запросов. Хотя предыдущие работы пытались улучшать запросы с использованием больших языковых моделей (LLM), эти методы часто создают стилистически неуместный или нереалистичный контент из-за недостаточного учета визуальной семантики и композиции реального мира. Вдохновленные последними достижениями в области рассуждений для языковых моделей, мы предлагаем RePrompt — новый фреймворк для переформулирования запросов, который вводит явные рассуждения в процесс улучшения запросов с помощью обучения с подкреплением. Вместо использования ручных правил или стилистических переписываний наш метод обучает языковую модель генерировать структурированные, саморефлексивные запросы, оптимизируя результаты на уровне изображений. Специально разработанные модели вознаграждения оценивают сгенерированные изображения с точки зрения предпочтений человека, семантического соответствия и визуальной композиции, предоставляя косвенное руководство для улучшения генерации запросов. Наш подход позволяет проводить сквозное обучение без использования аннотированных человеком данных. Эксперименты на GenEval и T2I-Compbench показывают, что RePrompt значительно повышает точность пространственного расположения и композиционную обобщаемость для различных T2I моделей, устанавливая новые результаты на уровне state-of-the-art.
English
Despite recent progress in text-to-image (T2I) generation, existing models often struggle to faithfully capture user intentions from short and under-specified prompts. While prior work has attempted to enhance prompts using large language models (LLMs), these methods frequently generate stylistic or unrealistic content due to insufficient grounding in visual semantics and real-world composition. Inspired by recent advances in reasoning for language model, we propose RePrompt, a novel reprompting framework that introduces explicit reasoning into the prompt enhancement process via reinforcement learning. Instead of relying on handcrafted rules or stylistic rewrites, our method trains a language model to generate structured, self-reflective prompts by optimizing for image-level outcomes. The tailored reward models assesse the generated images in terms of human preference, semantic alignment, and visual composition, providing indirect supervision to refine prompt generation. Our approach enables end-to-end training without human-annotated data. Experiments on GenEval and T2I-Compbench show that RePrompt significantly boosts spatial layout fidelity and compositional generalization across diverse T2I backbones, establishing new state-of-the-art results.
PDF72May 26, 2025