ChatPaper.aiChatPaper

REDSearcher: 長期的探索エージェントのためのスケーラブルでコスト効率の良いフレームワーク

REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

February 15, 2026
著者: Zheng Chu, Xiao Wang, Jack Hong, Huiming Fan, Yuqi Huang, Yue Yang, Guohai Xu, Chenxiao Zhao, Cheng Xiang, Shengchao Hu, Dongdong Kuang, Ming Liu, Bing Qin, Xing Yu
cs.AI

要旨

大規模言語モデルは、汎用知識エンジンから現実世界の問題解決ツールへと移行しつつあるが、深層検索タスクへの最適化は依然として課題である。中核的なボトルネックは、高品質な検索軌跡と報酬信号の極端な希少性にあり、これはスケーラブルな長期タスク構築の難しさと、外部ツール呼び出しを含むインタラクション集約的なロールアウトの高コストに起因する。これらの課題に対処するため、我々はREDSearcherを提案する。これは複雑なタスク合成、学習中訓練、学習後訓練を協調設計し、スケーラブルな検索エージェント最適化を実現する統一フレームワークである。具体的には、REDSearcherは以下の改善を導入する:(1)タスク合成を二重制約最適化問題として定式化し、グラフトポロジーと証拠分散によってタスク難易度を精密に制御することで、複雑で高品質なタスクのスケーラブルな生成を可能にする。(2)受動的想起ではなく能動的ツール使用を促進するため、ツール拡張クエリを導入する。(3)学習中訓練において、中核的原子能力(知識、計画、関数呼び出し)を強化し、下流訓練のための高品質軌跡収集コストを大幅に削減する。(4)強化学習実験のための迅速かつ低コストなアルゴリズム反復を可能とするローカルシミュレーション環境を構築する。テキストのみおよびマルチモーダル検索エージェントベンチマークにおいて、本手法は最先端の性能を達成する。長期検索エージェントの将来研究を促進するため、1万件の高品質複雑テキスト検索軌跡、5千件のマルチモーダル軌跡、1千件のテキストRLクエリセットを、コード及びモデルチェックポイントと共に公開する予定である。
English
Large language models are transitioning from generalpurpose knowledge engines to realworld problem solvers, yet optimizing them for deep search tasks remains challenging. The central bottleneck lies in the extreme sparsity of highquality search trajectories and reward signals, arising from the difficulty of scalable longhorizon task construction and the high cost of interactionheavy rollouts involving external tool calls. To address these challenges, we propose REDSearcher, a unified framework that codesigns complex task synthesis, midtraining, and posttraining for scalable searchagent optimization. Specifically, REDSearcher introduces the following improvements: (1) We frame task synthesis as a dualconstrained optimization, where task difficulty is precisely governed by graph topology and evidence dispersion, allowing scalable generation of complex, highquality tasks. (2) We introduce toolaugmented queries to encourage proactive tool use rather than passive recall.(3) During midtraining, we strengthen core atomic capabilities knowledge, planning, and function calling substantially reducing the cost of collecting highquality trajectories for downstream training. (4) We build a local simulated environment that enables rapid, lowcost algorithmic iteration for reinforcement learning experiments. Across both textonly and multimodal searchagent benchmarks, our approach achieves stateoftheart performance. To facilitate future research on longhorizon search agents, we will release 10K highquality complex text search trajectories, 5K multimodal trajectories and 1K text RL query set, and together with code and model checkpoints.
PDF172February 18, 2026