OpenSearch-VL: Открытый рецепт для создания передовых мультимодальных поисковых агентов

Аннотация

Глубинный поиск стал ключевой возможностью для передовых мультимодальных агентов, позволяя моделям решать сложные вопросы через активный поиск, проверку доказательств и многошаговые рассуждения. Несмотря на быстрый прогресс, воспроизведение лучших мультимодальных поисковых агентов остается сложной задачей, в основном из-за отсутствия открытых высококачественных обучающих данных, прозрачных pipelines синтеза траекторий или детальных рецептов обучения. Для решения этой проблемы мы представляем OpenSearch-VL — полностью открытый рецепт обучения передовых мультимодальных агентов глубинного поиска с использованием агентного обучения с подкреплением. Во-первых, мы разработали специализированный pipeline для создания высококачественных обучающих данных через сэмплирование путей в Wikipedia, нечеткий переписывание сущностей и визуальную привязку к исходным якорям, что совместно снижает использование ярлыков и коллапс одношагового поиска. На основе этого pipeline мы подготовили два набора данных: SearchVL-SFT-36k для SFT и SearchVL-RL-8k для RL. Кроме того, мы создали разнообразную инструментальную среду, объединяющую текстовый поиск, поиск изображений, OCR, обрезку, повышение резкости, супер-разрешение и коррекцию перспективы, что позволяет агентам комбинировать активное восприятие с приобретением внешних знаний. Наконец, мы предлагаем многоходовой GRPO-алгоритм обучения с учетом фатальных ошибок, который обрабатывает каскадные сбои инструментов через маскирование токенов после сбоя, сохраняя при этом полезные предсбойные рассуждения посредством одностороннего ограничения преимуществ. Построенный на этом рецепте, OpenSearch-VL демонстрирует значительный прирост производительности — более чем 10-балльное усредненное улучшение по семи бенчмаркам — и достигает результатов, сопоставимых с проприетарными коммерческими моделями в ряде задач. Мы опубликуем все данные, код и модели для поддержки открытых исследований мультимодальных агентов глубинного поиска.

English

Deep search has become a crucial capability for frontier multimodal agents, enabling models to solve complex questions through active search, evidence verification, and multi-step reasoning. Despite rapid progress, top-tier multimodal search agents remain difficult to reproduce, largely due to the absence of open high-quality training data, transparent trajectory synthesis pipelines, or detailed training recipes. To this end, we introduce OpenSearch-VL, a fully open-source recipe for training frontier multimodal deep search agents with agentic reinforcement learning. First, we curated a dedicated pipeline to construct high-quality training data through Wikipedia path sampling, fuzzy entity rewriting, and source-anchor visual grounding, which jointly reduce shortcuts and one-step retrieval collapse. Based on this pipeline, we curate two training datasets, SearchVL-SFT-36k for SFT and SearchVL-RL-8k for RL. Besides, we design a diverse tool environment that unifies text search, image search, OCR, cropping, sharpening, super-resolution, and perspective correction, enabling agents to combine active perception with external knowledge acquisition. Finally, we propose a multi-turn fatal-aware GRPO training algorithm that handles cascading tool failures by masking post-failure tokens while preserving useful pre-failure reasoning through one-sided advantage clamping. Built on this recipe, OpenSearch-VL delivers substantial performance gains, with over 10-point average improvements across seven benchmarks, and achieves results comparable to proprietary commercial models on several tasks. We will release all data, code, and models to support open research on multimodal deep search agents.

OpenSearch-VL: Открытый рецепт для создания передовых мультимодальных поисковых агентов

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

Аннотация

Support