Gen-Searcher: Rafforzamento della Ricerca Agente per la Generazione di Immagini

Abstract

I recenti modelli di generazione di immagini hanno dimostrato notevoli capacità nel produrre immagini ad alta fedeltà e fotorealistiche. Tuttavia, sono fondamentalmente limitati da una conoscenza interna congelata, fallendo spesso in scenari reali che richiedono conoscenze intensive o informazioni aggiornate. In questo articolo presentiamo Gen-Searcher, il primo tentativo di addestrare un agente di generazione di immagini aumentato dalla ricerca, che esegue ragionamenti multi-hop e ricerche per raccogliere le conoscenze testuali e le immagini di riferimento necessarie per una generazione fondata. A tal fine, abbiamo costruito una pipeline di dati su misura e curato due dataset di alta qualità, Gen-Searcher-SFT-10k e Gen-Searcher-RL-6k, contenenti prompt diversificati ad alta intensità di ricerca e le corrispondenti immagini di sintesi ground-truth. Introduciamo inoltre KnowGen, un benchmark completo che richiede esplicitamente conoscenze esterne fondate sulla ricerca per la generazione di immagini e valuta i modelli da molteplici dimensioni. Basandoci su queste risorse, addestriamo Gen-Searcher prima con SFT e successivamente con apprendimento per rinforzo agentico con feedback di ricompensa duale, che combina ricompense basate su testo e su immagine per fornire segnali di apprendimento più stabili e informativi per l'addestramento GRPO. Gli esperimenti mostrano che Gen-Searcher apporta miglioramenti sostanziali, incrementando le prestazioni di Qwen-Image di circa 16 punti su KnowGen e 15 punti su WISE. Auspichiamo che questo lavoro possa servire come fondamento aperto per gli agenti di ricerca nella generazione di immagini, e rendiamo pienamente open-source i nostri dati, modelli e codice.

English

Recent image generation models have shown strong capabilities in generating high-fidelity and photorealistic images. However, they are fundamentally constrained by frozen internal knowledge, thus often failing on real-world scenarios that are knowledge-intensive or require up-to-date information. In this paper, we present Gen-Searcher, as the first attempt to train a search-augmented image generation agent, which performs multi-hop reasoning and search to collect the textual knowledge and reference images needed for grounded generation. To achieve this, we construct a tailored data pipeline and curate two high-quality datasets, Gen-Searcher-SFT-10k and Gen-Searcher-RL-6k, containing diverse search-intensive prompts and corresponding ground-truth synthesis images. We further introduce KnowGen, a comprehensive benchmark that explicitly requires search-grounded external knowledge for image generation and evaluates models from multiple dimensions. Based on these resources, we train Gen-Searcher with SFT followed by agentic reinforcement learning with dual reward feedback, which combines text-based and image-based rewards to provide more stable and informative learning signals for GRPO training. Experiments show that Gen-Searcher brings substantial gains, improving Qwen-Image by around 16 points on KnowGen and 15 points on WISE. We hope this work can serve as an open foundation for search agents in image generation, and we fully open-source our data, models, and code.

Gen-Searcher: Rafforzamento della Ricerca Agente per la Generazione di Immagini

Gen-Searcher: Reinforcing Agentic Search for Image Generation

Abstract

Support