Gen-Searcher: Reforzando la Búsqueda Agéntica para la Generación de Imágenes

Resumen

Los modelos recientes de generación de imágenes han demostrado una gran capacidad para producir imágenes de alta fidelidad y fotorrealismo. Sin embargo, están fundamentalmente limitados por un conocimiento interno congelado, por lo que a menudo fallan en escenarios del mundo real que requieren conocimientos intensivos o información actualizada. En este artículo, presentamos Gen-Searcher, como el primer intento de entrenar un agente de generación de imágenes aumentado por búsqueda, que realiza razonamientos y búsquedas multicapa para recopilar el conocimiento textual y las imágenes de referencia necesarias para una generación fundamentada. Para lograrlo, construimos un pipeline de datos específico y creamos dos conjuntos de datos de alta calidad, Gen-Searcher-SFT-10k y Gen-Searcher-RL-6k, que contienen instrucciones diversas que requieren búsqueda intensiva y las correspondientes imágenes de síntesis de referencia. Además, presentamos KnowGen, un benchmark integral que exige explícitamente conocimiento externo fundamentado en búsquedas para la generación de imágenes y evalúa los modelos desde múltiples dimensiones. Basándonos en estos recursos, entrenamos Gen-Searcher primero con Ajuste Superficial (SFT) y luego con aprendizaje por refuerzo agéntico con retroalimentación de recompensa dual, que combina recompensas basadas en texto y en imagen para proporcionar señales de aprendizaje más estables e informativas para el entrenamiento GRPO. Los experimentos muestran que Gen-Searcher aporta mejoras sustanciales, aumentando la puntuación de Qwen-Image en aproximadamente 16 puntos en KnowGen y 15 puntos en WISE. Esperamos que este trabajo pueda servir como base abierta para agentes de búsqueda en generación de imágenes, y liberamos completamente nuestros datos, modelos y código.

English

Recent image generation models have shown strong capabilities in generating high-fidelity and photorealistic images. However, they are fundamentally constrained by frozen internal knowledge, thus often failing on real-world scenarios that are knowledge-intensive or require up-to-date information. In this paper, we present Gen-Searcher, as the first attempt to train a search-augmented image generation agent, which performs multi-hop reasoning and search to collect the textual knowledge and reference images needed for grounded generation. To achieve this, we construct a tailored data pipeline and curate two high-quality datasets, Gen-Searcher-SFT-10k and Gen-Searcher-RL-6k, containing diverse search-intensive prompts and corresponding ground-truth synthesis images. We further introduce KnowGen, a comprehensive benchmark that explicitly requires search-grounded external knowledge for image generation and evaluates models from multiple dimensions. Based on these resources, we train Gen-Searcher with SFT followed by agentic reinforcement learning with dual reward feedback, which combines text-based and image-based rewards to provide more stable and informative learning signals for GRPO training. Experiments show that Gen-Searcher brings substantial gains, improving Qwen-Image by around 16 points on KnowGen and 15 points on WISE. We hope this work can serve as an open foundation for search agents in image generation, and we fully open-source our data, models, and code.

Gen-Searcher: Reforzando la Búsqueda Agéntica para la Generación de Imágenes

Gen-Searcher: Reinforcing Agentic Search for Image Generation

Resumen

Support