Gen-Searcher : Renforcement de la recherche agentique pour la génération d'images

Résumé

Les modèles récents de génération d'images ont démontré d'impressionnantes capacités à produire des images à haute fidélité et photoréalistes. Cependant, ils sont fondamentalement limités par des connaissances internes figées, échouant souvent sur des scénarios réels nécessitant une connaissance intensive ou des informations actualisées. Dans cet article, nous présentons Gen-Searcher, comme première tentative d'entraîner un agent de génération d'images augmenté par recherche, qui effectue un raisonnement multi-sauts et des recherches pour collecter les connaissances textuelles et images de référence nécessaires à une génération fondée. Pour y parvenir, nous construisons un pipeline de données spécifique et constituons deux jeux de données de haute qualité, Gen-Searcher-SFT-10k et Gen-Searcher-RL-6k, contenant des instructions diverses nécessitant une recherche intensive et les images de synthèse correspondantes. Nous introduisons également KnowGen, un benchmark complet exigeant explicitement des connaissances externes ancrées dans la recherche pour la génération d'images et évaluant les modèles sous multiples dimensions. Sur la base de ces ressources, nous entraînons Gen-Searcher avec SFT suivi d'un apprentissage par renforcement agentique avec rétroaction double récompense, combinant des récompenses textuelles et visuelles pour fournir des signaux d'apprentissage plus stables et informatifs pour l'entraînement GRPO. Les expériences montrent que Gen-Searcher apporte des gains substantiels, améliorant Qwen-Image d'environ 16 points sur KnowGen et 15 points sur WISE. Nous espérons que ces travaux serviront de fondation ouverte pour les agents de recherche en génération d'images, et nous ouvrons entièrement nos données, modèles et code.

English

Recent image generation models have shown strong capabilities in generating high-fidelity and photorealistic images. However, they are fundamentally constrained by frozen internal knowledge, thus often failing on real-world scenarios that are knowledge-intensive or require up-to-date information. In this paper, we present Gen-Searcher, as the first attempt to train a search-augmented image generation agent, which performs multi-hop reasoning and search to collect the textual knowledge and reference images needed for grounded generation. To achieve this, we construct a tailored data pipeline and curate two high-quality datasets, Gen-Searcher-SFT-10k and Gen-Searcher-RL-6k, containing diverse search-intensive prompts and corresponding ground-truth synthesis images. We further introduce KnowGen, a comprehensive benchmark that explicitly requires search-grounded external knowledge for image generation and evaluates models from multiple dimensions. Based on these resources, we train Gen-Searcher with SFT followed by agentic reinforcement learning with dual reward feedback, which combines text-based and image-based rewards to provide more stable and informative learning signals for GRPO training. Experiments show that Gen-Searcher brings substantial gains, improving Qwen-Image by around 16 points on KnowGen and 15 points on WISE. We hope this work can serve as an open foundation for search agents in image generation, and we fully open-source our data, models, and code.

Gen-Searcher : Renforcement de la recherche agentique pour la génération d'images

Gen-Searcher: Reinforcing Agentic Search for Image Generation

Résumé

Support