ChatPaper.aiChatPaper

RealGen : Génération photoréaliste d'images à partir de texte via des récompenses guidées par détecteur

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

November 29, 2025
papers.authors: Junyan Ye, Leiqi Zhu, Yuncheng Guo, Dongzhi Jiang, Zilong Huang, Yifan Zhang, Zhiyuan Yan, Haohuan Fu, Conghui He, Weijia Li
cs.AI

papers.abstract

Avec les progrès continus des technologies de génération d'images, des modèles avancés tels que GPT-Image-1 et Qwen-Image ont atteint une remarquable cohérence texte-image et une riche connaissance du monde. Cependant, ces modèles présentent encore des lacunes dans la génération d'images photoréalistes. Même sur des tâches T2I simples, ils ont tendance à produire des images "artificielles" présentant des artefacts d'IA distincts, souvent caractérisés par une "peau trop lisse" et des "reflets gras sur le visage". Pour retrouver l'objectif initial de génération "indiscernable de la réalité", nous proposons RealGen, un framework texte-image photoréaliste. RealGen intègre un composant de modèle de langage (LLM) pour l'optimisation des prompts et un modèle de diffusion pour la génération d'images réalistes. S'inspirant de la génération antagoniste, RealGen introduit un mécanisme de "Récompense par Détecteur" qui quantifie les artefacts et évalue le réalisme à l'aide de détecteurs d'images synthétiques aux niveaux sémantique et caractéristique. Nous exploitons ce signal de récompense avec l'algorithme GRPO pour optimiser l'ensemble du pipeline de génération, améliorant significativement le réalisme et le détail des images. Par ailleurs, nous proposons RealBench, un benchmark d'évaluation automatisé utilisant le "Détecteur-Scoring" et l'"Arène-Scoring". Il permet une évaluation du photoréalisme sans intervention humaine, produisant des résultats plus précis et alignés avec l'expérience utilisateur réelle. Les expériences démontrent que RealGen surpasse significativement les modèles généraux comme GPT-Image-1 et Qwen-Image, ainsi que les modèles spécialisés dans le photoréalisme comme FLUX-Krea, en termes de réalisme, de détail et d'esthétique. Le code est disponible à l'adresse https://github.com/yejy53/RealGen.
English
With the continuous advancement of image generation technology, advanced models such as GPT-Image-1 and Qwen-Image have achieved remarkable text-to-image consistency and world knowledge However, these models still fall short in photorealistic image generation. Even on simple T2I tasks, they tend to produce " fake" images with distinct AI artifacts, often characterized by "overly smooth skin" and "oily facial sheens". To recapture the original goal of "indistinguishable-from-reality" generation, we propose RealGen, a photorealistic text-to-image framework. RealGen integrates an LLM component for prompt optimization and a diffusion model for realistic image generation. Inspired by adversarial generation, RealGen introduces a "Detector Reward" mechanism, which quantifies artifacts and assesses realism using both semantic-level and feature-level synthetic image detectors. We leverage this reward signal with the GRPO algorithm to optimize the entire generation pipeline, significantly enhancing image realism and detail. Furthermore, we propose RealBench, an automated evaluation benchmark employing Detector-Scoring and Arena-Scoring. It enables human-free photorealism assessment, yielding results that are more accurate and aligned with real user experience. Experiments demonstrate that RealGen significantly outperforms general models like GPT-Image-1 and Qwen-Image, as well as specialized photorealistic models like FLUX-Krea, in terms of realism, detail, and aesthetics. The code is available at https://github.com/yejy53/RealGen.
PDF142December 9, 2025