Gen-Searcher: Reforçando a Busca Agente para Geração de Imagens

Resumo

Os modelos recentes de geração de imagens demonstraram capacidades robustas na produção de imagens de alta fidelidade e foto-realistas. No entanto, eles estão fundamentalmente limitados por conhecimento interno congelado, falhando frequentemente em cenários do mundo real que são intensivos em conhecimento ou exigem informações atualizadas. Neste artigo, apresentamos o Gen-Searcher, como a primeira tentativa de treinar um agente de geração de imagens aumentado por busca, que executa raciocínio multi-etapa e buscas para coletar o conhecimento textual e as imagens de referência necessários para uma geração fundamentada. Para alcançar este objetivo, construímos um pipeline de dados personalizado e curamos dois conjuntos de dados de alta qualidade, o Gen-Searcher-SFT-10k e o Gen-Searcher-RL-6k, contendo instruções diversificadas que exigem busca intensiva e as correspondentes imagens de síntese de ground-truth. Introduzimos ainda o KnowGen, um benchmark abrangente que exige explicitamente conhecimento externo fundamentado em busca para a geração de imagens e avalia os modelos em múltiplas dimensões. Com base nestes recursos, treinamos o Gen-Searcher com SFT (Supervised Fine-Tuning), seguido por aprendizado por reforço agentivo com feedback de recompensa dual, que combina recompensas baseadas em texto e em imagem para fornecer sinais de aprendizagem mais estáveis e informativos para o treinamento GRPO. Os experimentos mostram que o Gen-Searcher traz ganhos substanciais, melhorando o Qwen-Image em aproximadamente 16 pontos no KnowGen e 15 pontos no WISE. Esperamos que este trabalho possa servir como uma base aberta para agentes de busca em geração de imagens, e disponibilizamos integralmente nossos dados, modelos e código em código aberto.

English

Recent image generation models have shown strong capabilities in generating high-fidelity and photorealistic images. However, they are fundamentally constrained by frozen internal knowledge, thus often failing on real-world scenarios that are knowledge-intensive or require up-to-date information. In this paper, we present Gen-Searcher, as the first attempt to train a search-augmented image generation agent, which performs multi-hop reasoning and search to collect the textual knowledge and reference images needed for grounded generation. To achieve this, we construct a tailored data pipeline and curate two high-quality datasets, Gen-Searcher-SFT-10k and Gen-Searcher-RL-6k, containing diverse search-intensive prompts and corresponding ground-truth synthesis images. We further introduce KnowGen, a comprehensive benchmark that explicitly requires search-grounded external knowledge for image generation and evaluates models from multiple dimensions. Based on these resources, we train Gen-Searcher with SFT followed by agentic reinforcement learning with dual reward feedback, which combines text-based and image-based rewards to provide more stable and informative learning signals for GRPO training. Experiments show that Gen-Searcher brings substantial gains, improving Qwen-Image by around 16 points on KnowGen and 15 points on WISE. We hope this work can serve as an open foundation for search agents in image generation, and we fully open-source our data, models, and code.