RealGen: Generación fotorrealista de imágenes a partir de texto mediante recompensas guiadas por detectores
RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards
November 29, 2025
Autores: Junyan Ye, Leiqi Zhu, Yuncheng Guo, Dongzhi Jiang, Zilong Huang, Yifan Zhang, Zhiyuan Yan, Haohuan Fu, Conghui He, Weijia Li
cs.AI
Resumen
Con el avance continuo de la tecnología de generación de imágenes, modelos avanzados como GPT-Image-1 y Qwen-Image han logrado una notable coherencia texto-imagen y conocimiento del mundo. Sin embargo, estos modelos aún presentan deficiencias en la generación de imágenes fotorrealistas. Incluso en tareas T2I simples, tienden a producir imágenes "falsas" con artefactos de IA distintivos, a menudo caracterizados por "piel excesivamente suave" y "brillos faciales aceitosos". Para recuperar el objetivo original de una generación "indistinguible de la realidad", proponemos RealGen, un marco fotorrealista de texto a imagen. RealGen integra un componente LLM para la optimización de prompts y un modelo de difusión para la generación de imágenes realistas. Inspirado en la generación adversarial, RealGen introduce un mecanismo de "Recompensa del Detector", que cuantifica los artefactos y evalúa el realismo utilizando detectores de imágenes sintéticas tanto a nivel semántico como a nivel de características. Aprovechamos esta señal de recompensa con el algoritmo GRPO para optimizar toda la pipeline de generación, mejorando significativamente el realismo y el detalle de la imagen. Además, proponemos RealBench, un benchmark de evaluación automatizado que emplea Puntuación por Detector y Puntuación por Arena. Permite una evaluación del fotorrealismo sin intervención humana, produciendo resultados más precisos y alineados con la experiencia real del usuario. Los experimentos demuestran que RealGen supera significativamente a modelos generales como GPT-Image-1 y Qwen-Image, así como a modelos especializados en fotorrealismo como FLUX-Krea, en términos de realismo, detalle y estética. El código está disponible en https://github.com/yejy53/RealGen.
English
With the continuous advancement of image generation technology, advanced models such as GPT-Image-1 and Qwen-Image have achieved remarkable text-to-image consistency and world knowledge However, these models still fall short in photorealistic image generation. Even on simple T2I tasks, they tend to produce " fake" images with distinct AI artifacts, often characterized by "overly smooth skin" and "oily facial sheens". To recapture the original goal of "indistinguishable-from-reality" generation, we propose RealGen, a photorealistic text-to-image framework. RealGen integrates an LLM component for prompt optimization and a diffusion model for realistic image generation. Inspired by adversarial generation, RealGen introduces a "Detector Reward" mechanism, which quantifies artifacts and assesses realism using both semantic-level and feature-level synthetic image detectors. We leverage this reward signal with the GRPO algorithm to optimize the entire generation pipeline, significantly enhancing image realism and detail. Furthermore, we propose RealBench, an automated evaluation benchmark employing Detector-Scoring and Arena-Scoring. It enables human-free photorealism assessment, yielding results that are more accurate and aligned with real user experience. Experiments demonstrate that RealGen significantly outperforms general models like GPT-Image-1 and Qwen-Image, as well as specialized photorealistic models like FLUX-Krea, in terms of realism, detail, and aesthetics. The code is available at https://github.com/yejy53/RealGen.