OpenSearch-VL: Ein offenes Rezept für hochmoderne multimodale Suchagenten

Zusammenfassung

Deep Search ist zu einer entscheidenden Fähigkeit für fortschrittliche multimodale Agenten geworden, die es Modellen ermöglicht, komplexe Fragen durch aktive Suche, Evidenzverifikation und mehrstufiges Reasoning zu lösen. Trotz rascher Fortschritte bleiben erstklassige multimodale Suchagenten schwer reproduzierbar, was größtenteils auf das Fehlen von offenen hochwertigen Trainingsdaten, transparenten Trajektorie-Synthese-Pipelines oder detaillierten Trainingsrezepten zurückzuführen ist. Zu diesem Zweck stellen wir OpenSearch-VL vor, ein vollständig quelloffenes Rezept zum Trainieren fortschrittlicher multimodaler Deep-Search-Agenten mit agentenbasierter Verstärkungslernmethode. Zunächst entwickelten wir eine spezielle Pipeline zur Konstruktion hochwertiger Trainingsdaten durch Wikipedia-Pfadstichproben, unscharfe Entitätsumschreibung und visuelle Verankerung von Quellenankern, wodurch gemeinsam Abkürzungen und Ein-Schritt-Retrieval-Zusammenbrüche reduziert werden. Auf dieser Grundlage kuratierten wir zwei Trainingsdatensätze: SearchVL-SFT-36k für SFT und SearchVL-RL-8k für RL. Darüber hinaus entwerfen wir eine vielfältige Tool-Umgebung, die Textsuche, Bildersuche, OCR, Zuschneiden, Schärfung, Super-Resolution und Perspektivenkorrektur vereint, um Agenten zu ermöglichen, aktive Wahrnehmung mit externem Wissenserwerb zu kombinieren. Schließlich schlagen wir einen mehrstufigen fatalitätsbewussten GRPO-Trainingsalgorithmus vor, der kaskadierende Tool-Fehler behandelt, indem Tokens nach Fehlern maskiert werden, während nützliches Vor-Fehler-Reasoning durch einseitige Advantage-Clamping erhalten bleibt. Auf diesem Rezept aufbauend erzielt OpenSearch-VL erhebliche Leistungssteigerungen mit durchschnittlich über 10 Punkten Verbesserung in sieben Benchmarks und erreicht Ergebnisse, die mit proprietären kommerziellen Modellen in mehreren Aufgaben vergleichbar sind. Wir werden alle Daten, Codes und Modelle veröffentlichen, um die offene Forschung zu multimodalen Deep-Search-Agenten zu unterstützen.

English

Deep search has become a crucial capability for frontier multimodal agents, enabling models to solve complex questions through active search, evidence verification, and multi-step reasoning. Despite rapid progress, top-tier multimodal search agents remain difficult to reproduce, largely due to the absence of open high-quality training data, transparent trajectory synthesis pipelines, or detailed training recipes. To this end, we introduce OpenSearch-VL, a fully open-source recipe for training frontier multimodal deep search agents with agentic reinforcement learning. First, we curated a dedicated pipeline to construct high-quality training data through Wikipedia path sampling, fuzzy entity rewriting, and source-anchor visual grounding, which jointly reduce shortcuts and one-step retrieval collapse. Based on this pipeline, we curate two training datasets, SearchVL-SFT-36k for SFT and SearchVL-RL-8k for RL. Besides, we design a diverse tool environment that unifies text search, image search, OCR, cropping, sharpening, super-resolution, and perspective correction, enabling agents to combine active perception with external knowledge acquisition. Finally, we propose a multi-turn fatal-aware GRPO training algorithm that handles cascading tool failures by masking post-failure tokens while preserving useful pre-failure reasoning through one-sided advantage clamping. Built on this recipe, OpenSearch-VL delivers substantial performance gains, with over 10-point average improvements across seven benchmarks, and achieves results comparable to proprietary commercial models on several tasks. We will release all data, code, and models to support open research on multimodal deep search agents.

OpenSearch-VL: Ein offenes Rezept für hochmoderne multimodale Suchagenten

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

Zusammenfassung

Support