OpenSearch-VL : Une recette ouverte pour des agents de recherche multimodale de pointe
OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents
May 6, 2026
Auteurs: Shuang Chen, Kaituo Feng, Hangting Chen, Wenxuan Huang, Dasen Dai, Quanxin Shou, Yunlong Lin, Xiangyu Yue, Shenghua Gao, Tianyu Pang
cs.AI
Résumé
La recherche approfondie est devenue une capacité cruciale pour les agents multimodaux de pointe, permettant aux modèles de résoudre des questions complexes grâce à une recherche active, une vérification des preuves et un raisonnement en plusieurs étapes. Malgré des progrès rapides, les meilleurs agents de recherche multimodaux restent difficiles à reproduire, principalement en raison de l'absence de données d'entraînement ouvertes de haute qualité, de pipelines transparents de synthèse des trajectoires ou de protocoles d'entraînement détaillés. Pour remédier à cela, nous présentons OpenSearch-VL, une méthode entièrement open-source pour entraîner des agents de recherche multimodale approfondie de pointe avec un apprentissage par renforcement agentique. Premièrement, nous avons conçu un pipeline dédié pour construire des données d'entraînement de haute qualité grâce à un échantillonnage de chemins Wikipedia, une réécriture floue d'entités et un ancrage visuel source-ancre, qui réduisent conjointement les raccourcis et l'effondrement de la récupération en une étape. Sur la base de ce pipeline, nous avons constitué deux jeux de données d'entraînement : SearchVL-SFT-36k pour le SFT et SearchVL-RL-8k pour le RL. Par ailleurs, nous concevons un environnement d'outils diversifié qui unifie la recherche textuelle, la recherche d'images, la ROC, le recadrage, l'accentuation, la super-résolution et la correction de perspective, permettant aux agents de combiner une perception active avec une acquisition de connaissances externes. Enfin, nous proposons un algorithme d'entraînement GRPO multi-tours conscient des échecs critiques qui gère les défaillances en cascade des outils en masquant les tokens post-échec tout en préservant le raisonnement utile pré-échec via un clampage unilatéral de l'avantage. Construit sur cette méthode, OpenSearch-VL offre des gains de performance substantiels, avec des améliorations moyennes de plus de 10 points sur sept benchmarks, et obtient des résultats comparables aux modèles commerciaux propriétaires sur plusieurs tâches. Nous publierons toutes les données, le code et les modèles pour soutenir la recherche ouverte sur les agents de recherche multimodale approfondie.
English
Deep search has become a crucial capability for frontier multimodal agents, enabling models to solve complex questions through active search, evidence verification, and multi-step reasoning. Despite rapid progress, top-tier multimodal search agents remain difficult to reproduce, largely due to the absence of open high-quality training data, transparent trajectory synthesis pipelines, or detailed training recipes. To this end, we introduce OpenSearch-VL, a fully open-source recipe for training frontier multimodal deep search agents with agentic reinforcement learning. First, we curated a dedicated pipeline to construct high-quality training data through Wikipedia path sampling, fuzzy entity rewriting, and source-anchor visual grounding, which jointly reduce shortcuts and one-step retrieval collapse. Based on this pipeline, we curate two training datasets, SearchVL-SFT-36k for SFT and SearchVL-RL-8k for RL. Besides, we design a diverse tool environment that unifies text search, image search, OCR, cropping, sharpening, super-resolution, and perspective correction, enabling agents to combine active perception with external knowledge acquisition. Finally, we propose a multi-turn fatal-aware GRPO training algorithm that handles cascading tool failures by masking post-failure tokens while preserving useful pre-failure reasoning through one-sided advantage clamping. Built on this recipe, OpenSearch-VL delivers substantial performance gains, with over 10-point average improvements across seven benchmarks, and achieves results comparable to proprietary commercial models on several tasks. We will release all data, code, and models to support open research on multimodal deep search agents.