RealGen: Geração Foto-realista de Imagem a partir de Texto via Recompensas Guiadas por Detector

Resumo

Com o avanço contínuo da tecnologia de geração de imagens, modelos avançados como o GPT-Image-1 e o Qwen-Image alcançaram notável consistência texto-imagem e conhecimento mundial. No entanto, estes modelos ainda apresentam limitações na geração de imagens fotorrealistas. Mesmo em tarefas simples de T2I, tendem a produzir imagens "artificiais" com artefatos de IA distintos, frequentemente caracterizados por "pele excessivamente suave" e "brilhos faciais oleosos". Para recuperar o objetivo original de geração "indistinguível da realidade", propomos o RealGen, um framework fotorrealista de texto para imagem. O RealGen integra um componente de LLM para otimização de prompts e um modelo de difusão para geração realista de imagens. Inspirado pela geração adversarial, o RealGen introduz um mecanismo de "Recompensa do Detector", que quantifica artefatos e avalia o realismo utilizando detectores de imagens sintéticas a nível semântico e de características. Aproveitamos este sinal de recompensa com o algoritmo GRPO para otimizar todo o pipeline de geração, melhorando significativamente o realismo e o detalhe da imagem. Adicionalmente, propomos o RealBench, um benchmark de avaliação automática que emprega Pontuação por Detector e Pontuação por Arena. Ele permite a avaliação de fotorrealismo sem intervenção humana, produzindo resultados mais precisos e alinhados com a experiência real do utilizador. Experiências demonstram que o RealGen supera significativamente modelos gerais como o GPT-Image-1 e o Qwen-Image, bem como modelos especializados em fotorrealismo como o FLUX-Krea, em termos de realismo, detalhe e estética. O código está disponível em https://github.com/yejy53/RealGen.

English

With the continuous advancement of image generation technology, advanced models such as GPT-Image-1 and Qwen-Image have achieved remarkable text-to-image consistency and world knowledge However, these models still fall short in photorealistic image generation. Even on simple T2I tasks, they tend to produce " fake" images with distinct AI artifacts, often characterized by "overly smooth skin" and "oily facial sheens". To recapture the original goal of "indistinguishable-from-reality" generation, we propose RealGen, a photorealistic text-to-image framework. RealGen integrates an LLM component for prompt optimization and a diffusion model for realistic image generation. Inspired by adversarial generation, RealGen introduces a "Detector Reward" mechanism, which quantifies artifacts and assesses realism using both semantic-level and feature-level synthetic image detectors. We leverage this reward signal with the GRPO algorithm to optimize the entire generation pipeline, significantly enhancing image realism and detail. Furthermore, we propose RealBench, an automated evaluation benchmark employing Detector-Scoring and Arena-Scoring. It enables human-free photorealism assessment, yielding results that are more accurate and aligned with real user experience. Experiments demonstrate that RealGen significantly outperforms general models like GPT-Image-1 and Qwen-Image, as well as specialized photorealistic models like FLUX-Krea, in terms of realism, detail, and aesthetics. The code is available at https://github.com/yejy53/RealGen.