RePrompt: Reprompting Aumentado con Razonamiento para la Generación de Texto a Imagen mediante Aprendizaje por Refuerzo
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning
May 23, 2025
Autores: Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji
cs.AI
Resumen
A pesar de los avances recientes en la generación de texto a imagen (T2I), los modelos existentes a menudo tienen dificultades para captar fielmente las intenciones del usuario a partir de indicaciones cortas y poco especificadas. Si bien trabajos previos han intentado mejorar las indicaciones utilizando modelos de lenguaje de gran escala (LLMs), estos métodos frecuentemente generan contenido estilizado o poco realista debido a una insuficiente fundamentación en la semántica visual y la composición del mundo real. Inspirados por los avances recientes en el razonamiento para modelos de lenguaje, proponemos RePrompt, un novedoso marco de reprompting que introduce un razonamiento explícito en el proceso de mejora de indicaciones mediante el aprendizaje por refuerzo. En lugar de depender de reglas predefinidas o reescrituras estilísticas, nuestro método entrena un modelo de lenguaje para generar indicaciones estructuradas y autorreflexivas optimizando los resultados a nivel de imagen. Los modelos de recompensa personalizados evalúan las imágenes generadas en términos de preferencia humana, alineación semántica y composición visual, proporcionando una supervisión indirecta para refinar la generación de indicaciones. Nuestro enfoque permite un entrenamiento de extremo a extremo sin datos anotados manualmente. Los experimentos en GenEval y T2I-Compbench muestran que RePrompt mejora significativamente la fidelidad del diseño espacial y la generalización composicional en diversos modelos T2I, estableciendo nuevos resultados de vanguardia.
English
Despite recent progress in text-to-image (T2I) generation, existing models
often struggle to faithfully capture user intentions from short and
under-specified prompts. While prior work has attempted to enhance prompts
using large language models (LLMs), these methods frequently generate stylistic
or unrealistic content due to insufficient grounding in visual semantics and
real-world composition. Inspired by recent advances in reasoning for language
model, we propose RePrompt, a novel reprompting framework that introduces
explicit reasoning into the prompt enhancement process via reinforcement
learning. Instead of relying on handcrafted rules or stylistic rewrites, our
method trains a language model to generate structured, self-reflective prompts
by optimizing for image-level outcomes. The tailored reward models assesse the
generated images in terms of human preference, semantic alignment, and visual
composition, providing indirect supervision to refine prompt generation. Our
approach enables end-to-end training without human-annotated data. Experiments
on GenEval and T2I-Compbench show that RePrompt significantly boosts spatial
layout fidelity and compositional generalization across diverse T2I backbones,
establishing new state-of-the-art results.Summary
AI-Generated Summary