ChatPaper.aiChatPaper

OpenSearch-VL: Een Open Recept voor Grensverleggende Multimodale Zoekagenten

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

May 6, 2026
Auteurs: Shuang Chen, Kaituo Feng, Hangting Chen, Wenxuan Huang, Dasen Dai, Quanxin Shou, Yunlong Lin, Xiangyu Yue, Shenghua Gao, Tianyu Pang
cs.AI

Samenvatting

Deep search is uitgegroeid tot een cruciale capaciteit voor geavanceerde multimodale agents, waardoor modellen complexe vragen kunnen oplossen via actief zoeken, verificatie van bewijsmateriaal en meerstapsredenering. Ondanks snelle vooruitgang blijven topklasse multimodale zoekagents moeilijk reproduceerbaar, grotendeels door het ontbreken van open hoogwaardige trainingsdata, transparante traject-synthesepijplijnen of gedetailleerde trainingsrecepten. Daarom introduceren we OpenSearch-VL, een volledig open-source recept voor het trainen van geavanceerde multimodale deep search agents met agent-gerichte reinforcement learning. Ten eerste ontwikkelden we een toegewijde pijplijn om hoogwaardige trainingsdata te construeren via Wikipedia-padmonstering, fuzzy entity herschrijving en source-anchor visuele verankering, die gezamenlijk shortcuts en instorting van eenstapsretrieval verminderen. Gebaseerd op deze pijplijn cureren we twee trainingsdatasets: SearchVL-SFT-36k voor SFT en SearchVL-RL-8k voor RL. Daarnaast ontwerpen we een diverse toolomgeving die tekstzoeken, beeldzoeken, OCR, bijsnijden, verscherpen, superresolutie en perspectiefcorrectie verenigt, waardoor agents actieve waarneming kunnen combineren met externe kennisverwerving. Ten slotte stellen we een multi-turn fatal-aware GRPO-trainingsalgoritme voor dat cascade-toolfouten aanpakt door post-fout tokens te maskeren, terwijl nuttige pre-fout redenering behouden blijft via eenzijdige advantage clamping. Gebouwd op dit recept levert OpenSearch-VL substantiële prestatieverbeteringen, met gemiddeld meer dan 10 punten verbetering over zeven benchmarks, en behaalt het resultaten vergelijkbaar met propriëtaire commerciële modellen bij verschillende taken. We zullen alle data, code en modellen vrijgeven om open onderzoek naar multimodale deep search agents te ondersteunen.
English
Deep search has become a crucial capability for frontier multimodal agents, enabling models to solve complex questions through active search, evidence verification, and multi-step reasoning. Despite rapid progress, top-tier multimodal search agents remain difficult to reproduce, largely due to the absence of open high-quality training data, transparent trajectory synthesis pipelines, or detailed training recipes. To this end, we introduce OpenSearch-VL, a fully open-source recipe for training frontier multimodal deep search agents with agentic reinforcement learning. First, we curated a dedicated pipeline to construct high-quality training data through Wikipedia path sampling, fuzzy entity rewriting, and source-anchor visual grounding, which jointly reduce shortcuts and one-step retrieval collapse. Based on this pipeline, we curate two training datasets, SearchVL-SFT-36k for SFT and SearchVL-RL-8k for RL. Besides, we design a diverse tool environment that unifies text search, image search, OCR, cropping, sharpening, super-resolution, and perspective correction, enabling agents to combine active perception with external knowledge acquisition. Finally, we propose a multi-turn fatal-aware GRPO training algorithm that handles cascading tool failures by masking post-failure tokens while preserving useful pre-failure reasoning through one-sided advantage clamping. Built on this recipe, OpenSearch-VL delivers substantial performance gains, with over 10-point average improvements across seven benchmarks, and achieves results comparable to proprietary commercial models on several tasks. We will release all data, code, and models to support open research on multimodal deep search agents.
PDF801May 8, 2026