Gen-Searcher: Verstärkung agentenbasierter Suche für die Bildgenerierung

Zusammenfassung

Aktuelle Bildgenerierungsmodelle zeigen starke Fähigkeiten bei der Erzeugung hochwertiger, fotorealistischer Bilder. Sie sind jedoch grundsätzlich durch eingefrorenes internes Wissen eingeschränkt und scheitern daher häufig an realen Szenarien, die wissensintensiv sind oder aktuelle Informationen erfordern. In diesem Artikel stellen wir Gen-Searcher vor, den ersten Versuch, einen suchaugmentierten Bildgenerierungs-Agenten zu trainieren, der Multi-Hop-Reasoning und Suche durchführt, um das für eine fundierte Generierung benötigte textuelle Wissen und Referenzbilder zu sammeln. Dazu haben wir eine maßgeschneiderte Datenpipeline entwickelt und zwei hochwertige Datensätze kuratiert: Gen-Searcher-SFT-10k und Gen-Searcher-RL-6k, die diverse suchintensive Prompts und entsprechende Ground-Truth-Synthesebilder enthalten. Wir führen außerdem KnowGen ein, einen umfassenden Benchmark, der explizit suchgestütztes externes Wissen für die Bildgenerierung erfordert und Modelle multidimensional evaluiert. Aufbauend auf diesen Ressourcen trainieren wir Gen-Searcher mittels SFT, gefolgt von agentenbasierter Verstärkungslernung mit dualem Belohnungsfeedback, das text- und bildbasierte Belohnungen kombiniert, um stabilere und informativere Lernsignale für das GRPO-Training bereitzustellen. Experimente zeigen, dass Gen-Searcher erhebliche Verbesserungen bringt und Qwen-Image um etwa 16 Punkte auf KnowGen und 15 Punkte auf WISE steigert. Wir hoffen, dass diese Arbeit als offene Grundlage für Suchagenten in der Bildgenerierung dienen kann, und stellen unsere Daten, Modelle und Code vollständig als Open Source zur Verfügung.

English

Recent image generation models have shown strong capabilities in generating high-fidelity and photorealistic images. However, they are fundamentally constrained by frozen internal knowledge, thus often failing on real-world scenarios that are knowledge-intensive or require up-to-date information. In this paper, we present Gen-Searcher, as the first attempt to train a search-augmented image generation agent, which performs multi-hop reasoning and search to collect the textual knowledge and reference images needed for grounded generation. To achieve this, we construct a tailored data pipeline and curate two high-quality datasets, Gen-Searcher-SFT-10k and Gen-Searcher-RL-6k, containing diverse search-intensive prompts and corresponding ground-truth synthesis images. We further introduce KnowGen, a comprehensive benchmark that explicitly requires search-grounded external knowledge for image generation and evaluates models from multiple dimensions. Based on these resources, we train Gen-Searcher with SFT followed by agentic reinforcement learning with dual reward feedback, which combines text-based and image-based rewards to provide more stable and informative learning signals for GRPO training. Experiments show that Gen-Searcher brings substantial gains, improving Qwen-Image by around 16 points on KnowGen and 15 points on WISE. We hope this work can serve as an open foundation for search agents in image generation, and we fully open-source our data, models, and code.

Gen-Searcher: Verstärkung agentenbasierter Suche für die Bildgenerierung

Gen-Searcher: Reinforcing Agentic Search for Image Generation

Zusammenfassung

Support