OpenSearch-VL: Una Receta Abierta para Agentes de Búsqueda Multimodal de Vanguardia
OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents
May 6, 2026
Autores: Shuang Chen, Kaituo Feng, Hangting Chen, Wenxuan Huang, Dasen Dai, Quanxin Shou, Yunlong Lin, Xiangyu Yue, Shenghua Gao, Tianyu Pang
cs.AI
Resumen
La búsqueda profunda se ha convertido en una capacidad crucial para los agentes multimodales de vanguardia, permitiendo a los modelos resolver preguntas complejas mediante búsqueda activa, verificación de evidencias y razonamiento multi-etapa. A pesar del rápido progreso, los mejores agentes de búsqueda multimodal siguen siendo difíciles de reproducir, debido en gran parte a la ausencia de datos de entrenamiento abiertos y de alta calidad, pipelines transparentes de síntesis de trayectorias o recetas de entrenamiento detalladas. Para abordar esto, presentamos OpenSearch-VL, una receta completamente de código abierto para entrenar agentes de búsqueda profunda multimodal de vanguardia con aprendizaje por refuerzo agéntico. En primer lugar, hemos diseñado un pipeline dedicado para construir datos de entrenamiento de alta calidad mediante muestreo de rutas de Wikipedia, reescritura difusa de entidades y anclaje visual de fuentes, lo que reduce conjuntamente los atajos y el colapso en la recuperación de un solo paso. Basándonos en este pipeline, hemos creado dos conjuntos de datos de entrenamiento: SearchVL-SFT-36k para SFT (Ajuste Supervisado) y SearchVL-RL-8k para RL (Aprendizaje por Refuerzo). Además, diseñamos un entorno de herramientas diverso que unifica la búsqueda de texto, búsqueda de imágenes, OCR, recorte, enfoque, super-resolución y corrección de perspectiva, permitiendo a los agentes combinar la percepción activa con la adquisición de conocimiento externo. Finalmente, proponemos un algoritmo de entrenamiento GRPO (Optimización de Políticas de Rechazo de Recompensa Generalizada) consciente de errores fatales en múltiples turnos, que maneja fallos en cascada de herramientas enmascarando los tokens posteriores al fallo, mientras preserva el razonamiento útil previo al fallo mediante un ajuste unilateral de ventajas. Basándonos en esta receta, OpenSearch-VL ofrece mejoras sustanciales de rendimiento, con avances promedio superiores a 10 puntos en siete benchmarks, y logra resultados comparables a los de modelos comerciales propietarios en varias tareas. Liberaremos todos los datos, código y modelos para apoyar la investigación abierta en agentes de búsqueda profunda multimodal.
English
Deep search has become a crucial capability for frontier multimodal agents, enabling models to solve complex questions through active search, evidence verification, and multi-step reasoning. Despite rapid progress, top-tier multimodal search agents remain difficult to reproduce, largely due to the absence of open high-quality training data, transparent trajectory synthesis pipelines, or detailed training recipes. To this end, we introduce OpenSearch-VL, a fully open-source recipe for training frontier multimodal deep search agents with agentic reinforcement learning. First, we curated a dedicated pipeline to construct high-quality training data through Wikipedia path sampling, fuzzy entity rewriting, and source-anchor visual grounding, which jointly reduce shortcuts and one-step retrieval collapse. Based on this pipeline, we curate two training datasets, SearchVL-SFT-36k for SFT and SearchVL-RL-8k for RL. Besides, we design a diverse tool environment that unifies text search, image search, OCR, cropping, sharpening, super-resolution, and perspective correction, enabling agents to combine active perception with external knowledge acquisition. Finally, we propose a multi-turn fatal-aware GRPO training algorithm that handles cascading tool failures by masking post-failure tokens while preserving useful pre-failure reasoning through one-sided advantage clamping. Built on this recipe, OpenSearch-VL delivers substantial performance gains, with over 10-point average improvements across seven benchmarks, and achieves results comparable to proprietary commercial models on several tasks. We will release all data, code, and models to support open research on multimodal deep search agents.