ChatPaper.aiChatPaper

RealGen: 검출기 기반 보상을 통한 사실적 텍스트-이미지 생성

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

November 29, 2025
저자: Junyan Ye, Leiqi Zhu, Yuncheng Guo, Dongzhi Jiang, Zilong Huang, Yifan Zhang, Zhiyuan Yan, Haohuan Fu, Conghui He, Weijia Li
cs.AI

초록

이미지 생성 기술의 지속적인 발전으로 GPT-Image-1 및 Qwen-Image와 같은 고급 모델들은 텍스트-이미지 일관성과 세계 지식 측면에서 뛰어난 성과를 거두었습니다. 그러나 이러한 모델들은 여전히 사실적인 이미지 생성에는 한계를 보입니다. 간단한 T2I 작업에서조차 이들은 "지나치게 매끄러운 피부"와 "얼굴의 기름기 있는 광택"과 같은 특징을 보이는 뚜렷한 AI 아티팩트를 가진 "가짜" 이미지를 생성하는 경향이 있습니다. "현실과 구분할 수 없음"이라는 원래의 생성 목표를 재점화하기 위해 우리는 사실적인 텍스트-이미지 프레임워크인 RealGen을 제안합니다. RealGen은 프롬프트 최적화를 위한 LLM 구성 요소와 사실적인 이미지 생성을 위한 디퓨전 모델을 통합합니다. 적대적 생성에서 영감을 받은 RealGen은 "검출기 보상" 메커니즘을 도입하며, 이는 의미 수준 및 특징 수준의 합성 이미지 검출기를 사용하여 아티팩트를 정량화하고 사실성을 평가합니다. 우리는 GRPO 알고리즘과 함께 이 보상 신호를 활용하여 전체 생성 파이프라인을 최적화하여 이미지의 사실성과 디테일을 크게 향상시킵니다. 더 나아가, 우리는 검출기 점수화와 아레나 점수화를 활용한 자동 평가 벤치마크인 RealBench를 제안합니다. 이를 통해 인간 개입 없이 사실성을 평가할 수 있으며, 실제 사용자 경험에 더 부합하는 정확한 결과를 도출합니다. 실험 결과, RealGen은 사실성, 디테일, 미적 측면에서 GPT-Image-1, Qwen-Image와 같은 일반 모델뿐만 아니라 FLUX-Krea와 같은 전문 사실적 생성 모델을 크게 능가하는 성능을 보여줍니다. 코드는 https://github.com/yejy53/RealGen에서 확인할 수 있습니다.
English
With the continuous advancement of image generation technology, advanced models such as GPT-Image-1 and Qwen-Image have achieved remarkable text-to-image consistency and world knowledge However, these models still fall short in photorealistic image generation. Even on simple T2I tasks, they tend to produce " fake" images with distinct AI artifacts, often characterized by "overly smooth skin" and "oily facial sheens". To recapture the original goal of "indistinguishable-from-reality" generation, we propose RealGen, a photorealistic text-to-image framework. RealGen integrates an LLM component for prompt optimization and a diffusion model for realistic image generation. Inspired by adversarial generation, RealGen introduces a "Detector Reward" mechanism, which quantifies artifacts and assesses realism using both semantic-level and feature-level synthetic image detectors. We leverage this reward signal with the GRPO algorithm to optimize the entire generation pipeline, significantly enhancing image realism and detail. Furthermore, we propose RealBench, an automated evaluation benchmark employing Detector-Scoring and Arena-Scoring. It enables human-free photorealism assessment, yielding results that are more accurate and aligned with real user experience. Experiments demonstrate that RealGen significantly outperforms general models like GPT-Image-1 and Qwen-Image, as well as specialized photorealistic models like FLUX-Krea, in terms of realism, detail, and aesthetics. The code is available at https://github.com/yejy53/RealGen.
PDF142December 9, 2025