RealGen: 検出器誘導型報酬による写実的テキスト画像生成
RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards
November 29, 2025
著者: Junyan Ye, Leiqi Zhu, Yuncheng Guo, Dongzhi Jiang, Zilong Huang, Yifan Zhang, Zhiyuan Yan, Haohuan Fu, Conghui He, Weijia Li
cs.AI
要旨
画像生成技術の継続的な進歩に伴い、GPT-Image-1やQwen-Imageなどの高度なモデルは、テキストと画像の一貫性や世界知識において顕著な成果を上げている。しかし、これらのモデルは写真的画像生成において未だ不十分である。単純なT2Iタスクにおいてさえ、それらは「過度に滑らかな肌」や「油っぽい顔の光沢」といった特徴的なAIアーティファクトを持つ「不自然な」画像を生成する傾向がある。「現実と区別がつかない」生成という本来の目標を再達成するため、我々は写真的テキスト・画像変換フレームワークRealGenを提案する。RealGenは、プロンプト最適化のためのLLMコンポーネントと、写真的画像生成のための拡散モデルを統合する。敵対的生成にヒントを得て、RealGenは「検出器報酬」メカニズムを導入し、意味レベルと特徴レベルの合成画像検出器を用いてアーティファクトを定量化し、現実性を評価する。この報酬信号をGRPOアルゴリズムで活用し、生成パイプライン全体を最適化することで、画像の現実性と細部の表現を大幅に強化する。さらに、検出器スコアリングとアリーナスコアリングを採用した自動評価ベンチマークRealBenchを提案する。これにより、人間を介さない写真的品質評価が可能となり、実際のユーザー体験に合致したより正確な結果が得られる。実験により、RealGenが現実性、細部表現、美的品質において、GPT-Image-1やQwen-Imageのような汎用モデルや、FLUX-Kreaのような専門的な写真的モデルを大幅に上回ることを実証する。コードはhttps://github.com/yejy53/RealGenで公開されている。
English
With the continuous advancement of image generation technology, advanced models such as GPT-Image-1 and Qwen-Image have achieved remarkable text-to-image consistency and world knowledge However, these models still fall short in photorealistic image generation. Even on simple T2I tasks, they tend to produce " fake" images with distinct AI artifacts, often characterized by "overly smooth skin" and "oily facial sheens". To recapture the original goal of "indistinguishable-from-reality" generation, we propose RealGen, a photorealistic text-to-image framework. RealGen integrates an LLM component for prompt optimization and a diffusion model for realistic image generation. Inspired by adversarial generation, RealGen introduces a "Detector Reward" mechanism, which quantifies artifacts and assesses realism using both semantic-level and feature-level synthetic image detectors. We leverage this reward signal with the GRPO algorithm to optimize the entire generation pipeline, significantly enhancing image realism and detail. Furthermore, we propose RealBench, an automated evaluation benchmark employing Detector-Scoring and Arena-Scoring. It enables human-free photorealism assessment, yielding results that are more accurate and aligned with real user experience. Experiments demonstrate that RealGen significantly outperforms general models like GPT-Image-1 and Qwen-Image, as well as specialized photorealistic models like FLUX-Krea, in terms of realism, detail, and aesthetics. The code is available at https://github.com/yejy53/RealGen.