REDSearcher: 장기적 탐색 에이전트를 위한 확장 가능하고 비용 효율적인 프레임워크
REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
February 15, 2026
저자: Zheng Chu, Xiao Wang, Jack Hong, Huiming Fan, Yuqi Huang, Yue Yang, Guohai Xu, Chenxiao Zhao, Cheng Xiang, Shengchao Hu, Dongdong Kuang, Ming Liu, Bing Qin, Xing Yu
cs.AI
초록
대규모 언어 모델은 범용 지식 엔진에서 실세계 문제 해결사로 전환되고 있지만, 심층 검색 작업에 맞게 최적화하는 것은 여전히 어려운 과제로 남아 있습니다. 핵심 병목 현상은 확장 가능한 장기 과제 구성의 어려움과 외부 도구 호출을 포함하는 상호작용 집중 롤아웃의 높은 비용으로 인해 고품질 검색 경로와 보상 신호가 극도로 희소하다는 데 있습니다. 이러한 문제를 해결하기 위해 우리는 확장 가능한 검색 에이전트 최적화를 위해 복잡한 과제 합성, 중간 훈련, 후속 훈련을 공동 설계하는 통합 프레임워크인 REDSearcher를 제안합니다. 구체적으로 REDSearcher는 다음과 같은 개선 사항을 도입합니다: (1) 과제 난이도를 그래프 토폴로지와 증거 분산으로 정밀하게 제어하여 복잡한 고품질 과제의 확장 가능한 생성을 가능하게 하는 이중 제약 최적화로 과제 합성을 구성합니다. (2) 수동적 회상이 아닌 능동적 도구 사용을 장려하기 위해 도구 강화 질의를 도입합니다. (3) 중간 훈련 동안 핵심 원자 능력(지식, 계획 수립, 함수 호출)을 강화하여 하류 훈련을 위한 고품질 경로 수집 비용을 상당히 절감합니다. (4) 강화 학습 실험을 위한 빠르고 저비용의 알고리즘 반복을 가능하게 하는 로컬 시뮬레이션 환경을 구축합니다. 텍스트 전용 및 멀티모달 검색 에이전트 벤치마크 전반에 걸쳐 우리의 접근 방식은 최첨단 성능을 달성합니다. 장기 검색 에이전트에 대한 향후 연구를 촉진하기 위해 10,000개의 고품질 복합 텍스트 검색 경로, 5,000개의 멀티모달 경로, 1,000개의 텍스트 RL 질의 세트와 함께 코드 및 모델 체크포인트를 공개할 예정입니다.
English
Large language models are transitioning from generalpurpose knowledge engines to realworld problem solvers, yet optimizing them for deep search tasks remains challenging. The central bottleneck lies in the extreme sparsity of highquality search trajectories and reward signals, arising from the difficulty of scalable longhorizon task construction and the high cost of interactionheavy rollouts involving external tool calls. To address these challenges, we propose REDSearcher, a unified framework that codesigns complex task synthesis, midtraining, and posttraining for scalable searchagent optimization. Specifically, REDSearcher introduces the following improvements: (1) We frame task synthesis as a dualconstrained optimization, where task difficulty is precisely governed by graph topology and evidence dispersion, allowing scalable generation of complex, highquality tasks. (2) We introduce toolaugmented queries to encourage proactive tool use rather than passive recall.(3) During midtraining, we strengthen core atomic capabilities knowledge, planning, and function calling substantially reducing the cost of collecting highquality trajectories for downstream training. (4) We build a local simulated environment that enables rapid, lowcost algorithmic iteration for reinforcement learning experiments. Across both textonly and multimodal searchagent benchmarks, our approach achieves stateoftheart performance. To facilitate future research on longhorizon search agents, we will release 10K highquality complex text search trajectories, 5K multimodal trajectories and 1K text RL query set, and together with code and model checkpoints.