Gen-Searcher: 이미지 생성을 위한 에이전트 기반 검색 강화
Gen-Searcher: Reinforcing Agentic Search for Image Generation
March 30, 2026
저자: Kaituo Feng, Manyuan Zhang, Shuang Chen, Yunlong Lin, Kaixuan Fan, Yilei Jiang, Hongyu Li, Dian Zheng, Chenyang Wang, Xiangyu Yue
cs.AI
초록
최근 이미지 생성 모델은 높은 정밀도와 사실적인 이미지를 생성하는 강력한 능력을 보여주고 있습니다. 그러나 이러한 모델은 근본적으로 고정된 내부 지식에 제한되어 있어, 지식 집약적이거나 최신 정보가 필요한 현실 세계 시나리오에서 종종 실패합니다. 본 논문에서는 검색 증강 이미지 생성 에이전트를 훈련시키는 첫 번째 시도로 Gen-Searcher를 제안합니다. 이 에이전트는 다중 홉 추론과 검색을 수행하여 근거 기반 생성에 필요한 텍스트 지식과 참조 이미지를 수집합니다. 이를 위해 맞춤형 데이터 파이프라인을 구축하고 다양한 검색 집약적 프롬프트와 이에 대응하는 실제 합성 이미지를 포함한 두 개의 고품질 데이터셋인 Gen-Searcher-SFT-10k와 Gen-Searcher-RL-6k를 정제했습니다. 또한 이미지 생성에 검색을 통한 외부 지식이 명시적으로 필요하며 다차원적 모델 평가가 가능한 포괄적인 벤치마크인 KnowGen을 도입했습니다. 이러한 자원을 바탕으로 SFT(지도 미세 조정)를 수행한 후, 텍스트 기반과 이미지 기반 보상을 결합하여 GRPO 훈련에 더욱 안정적이고 유익한 학습 신호를 제공하는 이중 보상 피드백을 활용한 에이전트 강화 학습으로 Gen-Searcher를 훈련시켰습니다. 실험 결과, Gen-Searcher는 KnowGen에서 Qwen-Image 성능을 약 16점, WISE에서 약 15점 향상시키는 상당한 성능 향상을 가져오는 것으로 나타났습니다. 본 연구가 이미지 생성 분야의 검색 에이전트를 위한 개방형 기초 자료로 활용되기를 바라며, 데이터, 모델 및 코드를 완전히 오픈소스로 공개합니다.
English
Recent image generation models have shown strong capabilities in generating high-fidelity and photorealistic images. However, they are fundamentally constrained by frozen internal knowledge, thus often failing on real-world scenarios that are knowledge-intensive or require up-to-date information. In this paper, we present Gen-Searcher, as the first attempt to train a search-augmented image generation agent, which performs multi-hop reasoning and search to collect the textual knowledge and reference images needed for grounded generation. To achieve this, we construct a tailored data pipeline and curate two high-quality datasets, Gen-Searcher-SFT-10k and Gen-Searcher-RL-6k, containing diverse search-intensive prompts and corresponding ground-truth synthesis images. We further introduce KnowGen, a comprehensive benchmark that explicitly requires search-grounded external knowledge for image generation and evaluates models from multiple dimensions. Based on these resources, we train Gen-Searcher with SFT followed by agentic reinforcement learning with dual reward feedback, which combines text-based and image-based rewards to provide more stable and informative learning signals for GRPO training. Experiments show that Gen-Searcher brings substantial gains, improving Qwen-Image by around 16 points on KnowGen and 15 points on WISE. We hope this work can serve as an open foundation for search agents in image generation, and we fully open-source our data, models, and code.