ChatPaper.aiChatPaper

RealGen: Fotorealistische tekst-naar-beeldgeneratie via detector-geleide beloningen

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

November 29, 2025
Auteurs: Junyan Ye, Leiqi Zhu, Yuncheng Guo, Dongzhi Jiang, Zilong Huang, Yifan Zhang, Zhiyuan Yan, Haohuan Fu, Conghui He, Weijia Li
cs.AI

Samenvatting

Met de voortdurende vooruitgang van beeldgeneratietechnologie hebben geavanceerde modellen zoals GPT-Image-1 en Qwen-Image opmerkelijke resultaten geboekt op het gebied van tekst-naar-beeld consistentie en wereldkennis. Desalniettemin schieten deze modellen nog steeds tekort in het genereren van fotorealistische beelden. Zelfs bij eenvoudige T2I-taken produceren ze vaak 'nep'-beelden met duidelijke AI-artefacten, vaak gekenmerkt door 'te gladde huid' en 'vettige gezichtsglans'. Om het oorspronkelijke doel van 'niet van de realiteit te onderscheiden' generatie opnieuw te bereiken, stellen wij RealGen voor, een fotorealistisch tekst-naar-beeld raamwerk. RealGen integreert een LLM-component voor promptoptimalisatie en een diffusiemodel voor realistische beeldgeneratie. Geïnspireerd door adversarial generation introduceert RealGen een "Detector Reward"-mechanisme, dat artefacten kwantificeert en realisme beoordeelt met behulp van zowel semantisch- als featureniveau synthetische beelddetectoren. Wij benutten dit beloningssignaal met het GRPO-algoritme om de volledige generatiepijplijn te optimaliseren, waardoor de beeldrealiteit en -details aanzienlijk worden verbeterd. Verder stellen wij RealBench voor, een automatische evaluatiebenchmark die gebruikmaakt van Detector-Scoring en Arena-Scoring. Het maakt een beoordeling van fotorealisme zonder menselijke tussenkomst mogelijk, wat resultaten oplevert die nauwkeuriger zijn en beter aansluiten bij de werkelijke gebruikerservaring. Experimenten tonen aan dat RealGen aanzienlijk beter presteert dan algemene modellen zoals GPT-Image-1 en Qwen-Image, evenals gespecialiseerde fotorealistische modellen zoals FLUX-Krea, wat betreft realisme, detail en esthetiek. De code is beschikbaar op https://github.com/yejy53/RealGen.
English
With the continuous advancement of image generation technology, advanced models such as GPT-Image-1 and Qwen-Image have achieved remarkable text-to-image consistency and world knowledge However, these models still fall short in photorealistic image generation. Even on simple T2I tasks, they tend to produce " fake" images with distinct AI artifacts, often characterized by "overly smooth skin" and "oily facial sheens". To recapture the original goal of "indistinguishable-from-reality" generation, we propose RealGen, a photorealistic text-to-image framework. RealGen integrates an LLM component for prompt optimization and a diffusion model for realistic image generation. Inspired by adversarial generation, RealGen introduces a "Detector Reward" mechanism, which quantifies artifacts and assesses realism using both semantic-level and feature-level synthetic image detectors. We leverage this reward signal with the GRPO algorithm to optimize the entire generation pipeline, significantly enhancing image realism and detail. Furthermore, we propose RealBench, an automated evaluation benchmark employing Detector-Scoring and Arena-Scoring. It enables human-free photorealism assessment, yielding results that are more accurate and aligned with real user experience. Experiments demonstrate that RealGen significantly outperforms general models like GPT-Image-1 and Qwen-Image, as well as specialized photorealistic models like FLUX-Krea, in terms of realism, detail, and aesthetics. The code is available at https://github.com/yejy53/RealGen.
PDF142December 9, 2025