RePrompt: Reprompting Aumentado por Raciocínio para Geração de Texto em Imagem via Aprendizado por Reforço
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning
May 23, 2025
Autores: Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji
cs.AI
Resumo
Apesar dos recentes avanços na geração de texto para imagem (T2I), os modelos existentes frequentemente têm dificuldade em capturar fielmente as intenções do usuário a partir de prompts curtos e pouco especificados. Embora trabalhos anteriores tenham tentado aprimorar os prompts usando modelos de linguagem de grande escala (LLMs), esses métodos frequentemente geram conteúdo estilizado ou irrealista devido à falta de fundamentação em semântica visual e composição do mundo real. Inspirados pelos recentes avanços no raciocínio para modelos de linguagem, propomos o RePrompt, uma nova estrutura de reprompting que introduz raciocínio explícito no processo de aprimoramento de prompts por meio de aprendizado por reforço. Em vez de depender de regras manuais ou reescritas estilizadas, nosso método treina um modelo de linguagem para gerar prompts estruturados e autorreflexivos, otimizando os resultados em nível de imagem. Os modelos de recompensa personalizados avaliam as imagens geradas em termos de preferência humana, alinhamento semântico e composição visual, fornecendo supervisão indireta para refinar a geração de prompts. Nossa abordagem permite o treinamento de ponta a ponta sem dados anotados manualmente. Experimentos no GenEval e no T2I-Compbench mostram que o RePrompt aumenta significativamente a fidelidade do layout espacial e a generalização composicional em diversas arquiteturas T2I, estabelecendo novos resultados de estado da arte.
English
Despite recent progress in text-to-image (T2I) generation, existing models
often struggle to faithfully capture user intentions from short and
under-specified prompts. While prior work has attempted to enhance prompts
using large language models (LLMs), these methods frequently generate stylistic
or unrealistic content due to insufficient grounding in visual semantics and
real-world composition. Inspired by recent advances in reasoning for language
model, we propose RePrompt, a novel reprompting framework that introduces
explicit reasoning into the prompt enhancement process via reinforcement
learning. Instead of relying on handcrafted rules or stylistic rewrites, our
method trains a language model to generate structured, self-reflective prompts
by optimizing for image-level outcomes. The tailored reward models assesse the
generated images in terms of human preference, semantic alignment, and visual
composition, providing indirect supervision to refine prompt generation. Our
approach enables end-to-end training without human-annotated data. Experiments
on GenEval and T2I-Compbench show that RePrompt significantly boosts spatial
layout fidelity and compositional generalization across diverse T2I backbones,
establishing new state-of-the-art results.