더 많이 검색하고 덜 생각하기: 효율성과 일반화를 위한 장기 계획 에이전트 검색의 재고찰
Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization
February 26, 2026
저자: Qianben Chen, Tianrui Qin, King Zhu, Qiexiang Wang, Chengjun Yu, Shu Xu, Jiaqi Wu, Jiayu Zhang, Xinpeng Liu, Xin Gui, Jingyi Cao, Piaohong Wang, Dingfeng Shi, He Zhu, Tiannan Wang, Yuqing Wang, Maojia Song, Tianyu Zheng, Ge Zhang, Jian Yang, Jiaheng Liu, Minghao Liu, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
초록
최근의 심화 연구 에이전트는 주로 추론 깊이를 확장하여 성능을 향상시키지만, 이는 검색 집약적인 시나리오에서 높은 추론 비용과 지연 시간을 초래합니다. 더욱이 이질적인 연구 환경 간 일반화는 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 효율성과 일반화를 모두 목표로 하는 장기적 에이전트 검색 프레임워크인 'Search More, Think Less'(SMTL)를 제안합니다. SMTL은 순차적 추론을 병렬 증거 수집으로 대체하여 제한된 컨텍스트 예산 하에서 효율적인 컨텍스트 관리를 가능하게 합니다. 다양한 작업 유형 간 일반화를 지원하기 위해, 우리는 결정론적 질의응답과 개방형 연구 시나리오를 아우르는 검색 작업을 구성하고 작업에 적합한 평가 지표를 제공하는 통합 데이터 합성 파이프라인을 추가로 도입합니다. 지도 미세 조정과 강화 학습을 통해 종단간 에이전트를 학습시켜 BrowseComp(48.6%), GAIA(75.7%), Xbench(82.0%), DeepResearch Bench(45.9%) 등 다양한 벤치마크에서 강력하고 종종 최첨단 수준의 성능을 달성했습니다. Mirothinker-v1.0과 비교했을 때, 최대 100개의 상호작용 단계를 가진 SMTL은 BrowseComp에서 평균 추론 단계 수를 70.7% 줄이면서도 정확도를 향상시켰습니다.
English
Recent deep research agents primarily improve performance by scaling reasoning depth, but this leads to high inference cost and latency in search-intensive scenarios. Moreover, generalization across heterogeneous research settings remains challenging. In this work, we propose Search More, Think Less (SMTL), a framework for long-horizon agentic search that targets both efficiency and generalization. SMTL replaces sequential reasoning with parallel evidence acquisition, enabling efficient context management under constrained context budgets. To support generalization across task types, we further introduce a unified data synthesis pipeline that constructs search tasks spanning both deterministic question answering and open-ended research scenarios with task appropriate evaluation metrics. We train an end-to-end agent using supervised fine-tuning and reinforcement learning, achieving strong and often state of the art performance across benchmarks including BrowseComp (48.6\%), GAIA (75.7\%), Xbench (82.0\%), and DeepResearch Bench (45.9\%). Compared to Mirothinker-v1.0, SMTL with maximum 100 interaction steps reduces the average number of reasoning steps on BrowseComp by 70.7\%, while improving accuracy.