ChatPaper.aiChatPaper

RealGen: Photorealistische Text-zu-Bild-Generierung durch detektorgesteuerte Belohnungen

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

November 29, 2025
papers.authors: Junyan Ye, Leiqi Zhu, Yuncheng Guo, Dongzhi Jiang, Zilong Huang, Yifan Zhang, Zhiyuan Yan, Haohuan Fu, Conghui He, Weijia Li
cs.AI

papers.abstract

Mit der stetigen Weiterentwicklung der Bildgenerierungstechnologie haben fortschrittliche Modelle wie GPT-Image-1 und Qwen-Image bemerkenswerte Fortschritte bei der Text-Bild-Konsistenz und im Weltwissen erzielt. Dennoch bleiben diese Modelle bei der fotorealistischen Bildgenerierung hinter den Erwartungen zurück. Selbst bei einfachen Text-zu-Bild-Aufgaben neigen sie dazu, "künstlich" wirkende Bilder mit deutlichen KI-Artefakten zu erzeugen, die sich oft durch "übermäßig glatte Haut" und "ölige Gesichtsreflexe" auszeichnen. Um das ursprüngliche Ziel einer "von der Realität nicht zu unterscheidenden" Generierung wiederaufzugreifen, schlagen wir RealGen vor, einen fotorealistischen Text-zu-Bild-Framework. RealGen integriert eine LLM-Komponente zur Prompt-Optimierung und ein Diffusionsmodell für realistische Bildgenerierung. Inspiriert von der adversativen Generierung führt RealGen einen "Detector Reward"-Mechanismus ein, der Artefakte quantifiziert und den Realismusgrad unter Verwendung sowohl semantischer als auch feature-basierter Synthesebild-Detektoren bewertet. Wir nutzen dieses Belohnungssignal mit dem GRPO-Algorithmus, um die gesamte Generierungspipeline zu optimieren und so den Bildrealismus und die Detailtreue erheblich zu steigern. Darüber hinaus schlagen wir RealBench vor, einen automatisierten Evaluierungsmaßstab, der Detector-Scoring und Arena-Scoring einsetzt. Er ermöglicht eine menschenunabhängige Bewertung des Fotorealismus und liefert Ergebnisse, die genauer und besser mit der tatsächlichen Nutzererfahrung übereinstimmen. Experimente zeigen, dass RealGen allgemeine Modelle wie GPT-Image-1 und Qwen-Image sowie spezialisierte fotorealistische Modelle wie FLUX-Krea in Bezug auf Realismus, Detailreichtum und Ästhetik signifikant übertrifft. Der Code ist unter https://github.com/yejy53/RealGen verfügbar.
English
With the continuous advancement of image generation technology, advanced models such as GPT-Image-1 and Qwen-Image have achieved remarkable text-to-image consistency and world knowledge However, these models still fall short in photorealistic image generation. Even on simple T2I tasks, they tend to produce " fake" images with distinct AI artifacts, often characterized by "overly smooth skin" and "oily facial sheens". To recapture the original goal of "indistinguishable-from-reality" generation, we propose RealGen, a photorealistic text-to-image framework. RealGen integrates an LLM component for prompt optimization and a diffusion model for realistic image generation. Inspired by adversarial generation, RealGen introduces a "Detector Reward" mechanism, which quantifies artifacts and assesses realism using both semantic-level and feature-level synthetic image detectors. We leverage this reward signal with the GRPO algorithm to optimize the entire generation pipeline, significantly enhancing image realism and detail. Furthermore, we propose RealBench, an automated evaluation benchmark employing Detector-Scoring and Arena-Scoring. It enables human-free photorealism assessment, yielding results that are more accurate and aligned with real user experience. Experiments demonstrate that RealGen significantly outperforms general models like GPT-Image-1 and Qwen-Image, as well as specialized photorealistic models like FLUX-Krea, in terms of realism, detail, and aesthetics. The code is available at https://github.com/yejy53/RealGen.
PDF142December 9, 2025