ChatPaper.aiChatPaper

RealGen: Generazione fotorealistica di immagini da testo tramite ricompense guidate da detector

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

November 29, 2025
Autori: Junyan Ye, Leiqi Zhu, Yuncheng Guo, Dongzhi Jiang, Zilong Huang, Yifan Zhang, Zhiyuan Yan, Haohuan Fu, Conghui He, Weijia Li
cs.AI

Abstract

Con il continuo avanzamento della tecnologia di generazione di immagini, modelli avanzati come GPT-Image-1 e Qwen-Image hanno ottenuto risultati notevoli in termini di coerenza testo-immagine e conoscenza del mondo. Tuttavia, questi modelli presentano ancora carenze nella generazione di immagini fotorealistiche. Anche in compiti T2I semplici, tendono a produrre immagini "finte" con evidenti artefatti di IA, spesso caratterizzate da "pelle eccessivamente levigata" e "lucichii oleosi sul volto". Per riconquistare l'obiettivo originale della generazione "indistinguibile dalla realtà", proponiamo RealGen, un framework testo-immagine fotorealistico. RealGen integra un componente LLM per l'ottimizzazione dei prompt e un modello di diffusione per la generazione di immagini realistiche. Ispirandosi alla generazione avversaria, RealGen introduce un meccanismo di "Ricompensa del Rilevatore", che quantifica gli artefatti e valuta il realismo utilizzando rilevatori di immagini sintetiche a livello semantico e a livello di feature. Sfruttiamo questo segnale di ricompensa con l'algoritmo GRPO per ottimizzare l'intera pipeline di generazione, migliorando significativamente il realismo e il dettaglio dell'immagine. Inoltre, proponiamo RealBench, un benchmark di valutazione automatizzato che impiega il Punteggio del Rilevatore e il Punteggio Arena. Esso consente una valutazione del fotorealismo senza intervento umano, producendo risultati più accurati e allineati con la reale esperienza utente. Gli esperimenti dimostrano che RealGen supera significativamente i modelli generalisti come GPT-Image-1 e Qwen-Image, nonché i modelli specializzati in fotorealismo come FLUX-Krea, in termini di realismo, dettaglio ed estetica. Il codice è disponibile all'indirizzo https://github.com/yejy53/RealGen.
English
With the continuous advancement of image generation technology, advanced models such as GPT-Image-1 and Qwen-Image have achieved remarkable text-to-image consistency and world knowledge However, these models still fall short in photorealistic image generation. Even on simple T2I tasks, they tend to produce " fake" images with distinct AI artifacts, often characterized by "overly smooth skin" and "oily facial sheens". To recapture the original goal of "indistinguishable-from-reality" generation, we propose RealGen, a photorealistic text-to-image framework. RealGen integrates an LLM component for prompt optimization and a diffusion model for realistic image generation. Inspired by adversarial generation, RealGen introduces a "Detector Reward" mechanism, which quantifies artifacts and assesses realism using both semantic-level and feature-level synthetic image detectors. We leverage this reward signal with the GRPO algorithm to optimize the entire generation pipeline, significantly enhancing image realism and detail. Furthermore, we propose RealBench, an automated evaluation benchmark employing Detector-Scoring and Arena-Scoring. It enables human-free photorealism assessment, yielding results that are more accurate and aligned with real user experience. Experiments demonstrate that RealGen significantly outperforms general models like GPT-Image-1 and Qwen-Image, as well as specialized photorealistic models like FLUX-Krea, in terms of realism, detail, and aesthetics. The code is available at https://github.com/yejy53/RealGen.
PDF142December 9, 2025