RePrompt: Reprompting Aumentado con Razonamiento para la Generación de Texto a Imagen mediante Aprendizaje por Refuerzo

Resumen

A pesar de los avances recientes en la generación de texto a imagen (T2I), los modelos existentes a menudo tienen dificultades para captar fielmente las intenciones del usuario a partir de indicaciones cortas y poco especificadas. Si bien trabajos previos han intentado mejorar las indicaciones utilizando modelos de lenguaje de gran escala (LLMs), estos métodos frecuentemente generan contenido estilizado o poco realista debido a una insuficiente fundamentación en la semántica visual y la composición del mundo real. Inspirados por los avances recientes en el razonamiento para modelos de lenguaje, proponemos RePrompt, un novedoso marco de reprompting que introduce un razonamiento explícito en el proceso de mejora de indicaciones mediante el aprendizaje por refuerzo. En lugar de depender de reglas predefinidas o reescrituras estilísticas, nuestro método entrena un modelo de lenguaje para generar indicaciones estructuradas y autorreflexivas optimizando los resultados a nivel de imagen. Los modelos de recompensa personalizados evalúan las imágenes generadas en términos de preferencia humana, alineación semántica y composición visual, proporcionando una supervisión indirecta para refinar la generación de indicaciones. Nuestro enfoque permite un entrenamiento de extremo a extremo sin datos anotados manualmente. Los experimentos en GenEval y T2I-Compbench muestran que RePrompt mejora significativamente la fidelidad del diseño espacial y la generalización composicional en diversos modelos T2I, estableciendo nuevos resultados de vanguardia.

English

Despite recent progress in text-to-image (T2I) generation, existing models often struggle to faithfully capture user intentions from short and under-specified prompts. While prior work has attempted to enhance prompts using large language models (LLMs), these methods frequently generate stylistic or unrealistic content due to insufficient grounding in visual semantics and real-world composition. Inspired by recent advances in reasoning for language model, we propose RePrompt, a novel reprompting framework that introduces explicit reasoning into the prompt enhancement process via reinforcement learning. Instead of relying on handcrafted rules or stylistic rewrites, our method trains a language model to generate structured, self-reflective prompts by optimizing for image-level outcomes. The tailored reward models assesse the generated images in terms of human preference, semantic alignment, and visual composition, providing indirect supervision to refine prompt generation. Our approach enables end-to-end training without human-annotated data. Experiments on GenEval and T2I-Compbench show that RePrompt significantly boosts spatial layout fidelity and compositional generalization across diverse T2I backbones, establishing new state-of-the-art results.

RePrompt: Reprompting Aumentado con Razonamiento para la Generación de Texto a Imagen mediante Aprendizaje por Refuerzo

RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning

Resumen

Support