RealGen: Фотореалистичное генерация изображений из текста с использованием детекторно-управляемых вознаграждений
RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards
November 29, 2025
Авторы: Junyan Ye, Leiqi Zhu, Yuncheng Guo, Dongzhi Jiang, Zilong Huang, Yifan Zhang, Zhiyuan Yan, Haohuan Fu, Conghui He, Weijia Li
cs.AI
Аннотация
С непрерывным развитием технологий генерации изображений передовые модели, такие как GPT-Image-1 и Qwen-Image, достигли выдающейся согласованности текст-изображение и интеграции знаний о мире. Однако эти модели всё ещё отстают в области фотореалистичной генерации изображений. Даже при выполнении простых задач T2I они склонны создавать «ненастоящие» изображения с характерными артефактами ИИ, часто отличающиеся «излишне гладкой кожей» и «маслянистым блеском лица». Чтобы вернуться к изначальной цели генерации «неотличимых от реальности» изображений, мы предлагаем RealGen — фотореалистичную фреймворк-систему преобразования текста в изображение. RealGen интегрирует LLM-компонент для оптимизации промптов и диффузионную модель для реалистичной генерации изображений. Вдохновлённые принципами adversarial-генерации, мы внедряем в RealGen механизм «Detector Reward», который количественно оценивает артефакты и анализирует реалистичность с использованием детекторов синтетических изображений как на семантическом, так и на feature-уровне. Мы используем этот сигнал вознаграждения вместе с алгоритмом GRPO для оптимизации всего конвейера генерации, значительно повышая реалистичность и детализацию изображений. Кроме того, мы предлагаем RealBench — автоматизированный бенчмарк для оценки, использующий Detector-Scoring и Arena-Scoring. Он позволяет проводить оценку фотореалистичности без участия человека, давая более точные результаты, соответствующие реальному пользовательскому опыту. Эксперименты показывают, что RealGen значительно превосходит как универсальные модели, такие как GPT-Image-1 и Qwen-Image, так и специализированные фотореалистичные модели, подобные FLUX-Krea, по параметрам реалистичности, детализации и эстетики. Код доступен по адресу https://github.com/yejy53/RealGen.
English
With the continuous advancement of image generation technology, advanced models such as GPT-Image-1 and Qwen-Image have achieved remarkable text-to-image consistency and world knowledge However, these models still fall short in photorealistic image generation. Even on simple T2I tasks, they tend to produce " fake" images with distinct AI artifacts, often characterized by "overly smooth skin" and "oily facial sheens". To recapture the original goal of "indistinguishable-from-reality" generation, we propose RealGen, a photorealistic text-to-image framework. RealGen integrates an LLM component for prompt optimization and a diffusion model for realistic image generation. Inspired by adversarial generation, RealGen introduces a "Detector Reward" mechanism, which quantifies artifacts and assesses realism using both semantic-level and feature-level synthetic image detectors. We leverage this reward signal with the GRPO algorithm to optimize the entire generation pipeline, significantly enhancing image realism and detail. Furthermore, we propose RealBench, an automated evaluation benchmark employing Detector-Scoring and Arena-Scoring. It enables human-free photorealism assessment, yielding results that are more accurate and aligned with real user experience. Experiments demonstrate that RealGen significantly outperforms general models like GPT-Image-1 and Qwen-Image, as well as specialized photorealistic models like FLUX-Krea, in terms of realism, detail, and aesthetics. The code is available at https://github.com/yejy53/RealGen.