Gen-Searcher: Versterking van Agentisch Zoeken voor Beeldgeneratie

Samenvatting

Recente beeldgeneratiemodellen hebben sterke capaciteiten getoond in het genereren van hoogwaardige en fotorealistische beelden. Ze worden echter fundamenteel beperkt door bevroren interne kennis, waardoor ze vaak falen in realistische scenario's die kennisintensief zijn of actuele informatie vereisen. In dit artikel presenteren we Gen-Searcher, als eerste poging om een met zoekfunctionaliteit versterkte beeldgeneratie-agent te trainen, die multi-hop redenering en zoekacties uitvoert om de benodigde tekstuele kennis en referentiebeelden voor gegronde generatie te verzamelen. Om dit te bereiken, construeren we een op maat gemaakt datapijplijn en stellen we twee hoogwaardige datasets samen, Gen-Searcher-SFT-10k en Gen-Searcher-RL-6k, die diverse zoekintensieve prompts en bijbehorende grondwaarheid-synthesebeelden bevatten. We introduceren verder KnowGen, een uitgebreide benchmark die expliciet op zoekacties gegronde externe kennis vereist voor beeldgeneratie en modellen vanuit meerdere dimensies evalueert. Gebaseerd op deze bronnen, trainen we Gen-Searcher met SFT gevolgd door agent-gebaseerde reinforcement learning met dubbele beloningsfeedback, die op tekst gebaseerde en op beelden gebaseerde beloningen combineert om meer stabiele en informatieve leer signalen te bieden voor GRPO-training. Experimenten tonen aan dat Gen-Searcher substantiële verbeteringen oplevert, waarbij Qwen-Image met ongeveer 16 punten verbetert op KnowGen en 15 punten op WISE. We hopen dat dit werk kan dienen als een open fundament voor zoekagenten in beeldgeneratie, en we stellen onze data, modellen en code volledig open source.

English

Recent image generation models have shown strong capabilities in generating high-fidelity and photorealistic images. However, they are fundamentally constrained by frozen internal knowledge, thus often failing on real-world scenarios that are knowledge-intensive or require up-to-date information. In this paper, we present Gen-Searcher, as the first attempt to train a search-augmented image generation agent, which performs multi-hop reasoning and search to collect the textual knowledge and reference images needed for grounded generation. To achieve this, we construct a tailored data pipeline and curate two high-quality datasets, Gen-Searcher-SFT-10k and Gen-Searcher-RL-6k, containing diverse search-intensive prompts and corresponding ground-truth synthesis images. We further introduce KnowGen, a comprehensive benchmark that explicitly requires search-grounded external knowledge for image generation and evaluates models from multiple dimensions. Based on these resources, we train Gen-Searcher with SFT followed by agentic reinforcement learning with dual reward feedback, which combines text-based and image-based rewards to provide more stable and informative learning signals for GRPO training. Experiments show that Gen-Searcher brings substantial gains, improving Qwen-Image by around 16 points on KnowGen and 15 points on WISE. We hope this work can serve as an open foundation for search agents in image generation, and we fully open-source our data, models, and code.

Gen-Searcher: Versterking van Agentisch Zoeken voor Beeldgeneratie

Gen-Searcher: Reinforcing Agentic Search for Image Generation

Samenvatting

Support