Meer zoeken, minder denken: Een herziening van langetermijn-agentgericht zoeken voor efficiëntie en generalisatie
Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization
February 26, 2026
Auteurs: Qianben Chen, Tianrui Qin, King Zhu, Qiexiang Wang, Chengjun Yu, Shu Xu, Jiaqi Wu, Jiayu Zhang, Xinpeng Liu, Xin Gui, Jingyi Cao, Piaohong Wang, Dingfeng Shi, He Zhu, Tiannan Wang, Yuqing Wang, Maojia Song, Tianyu Zheng, Ge Zhang, Jian Yang, Jiaheng Liu, Minghao Liu, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Samenvatting
Recente deep research-agents verbeteren de prestaties vooral door de redeneerdiepte op te schalen, maar dit leidt tot hoge inferentiekosten en latentie in zoekintensieve scenario's. Bovendien blijft generalisatie over heterogene onderzoekssettings een uitdaging. In dit werk stellen we Search More, Think Less (SMTL) voor, een raamwerk voor langetermijn agent-gebaseerd zoeken dat zowel efficiëntie als generalisatie beoogt. SMTL vervangt sequentieel redeneren door parallelle verwerving van bewijs, waardoor efficiënt contextbeheer mogelijk wordt onder beperkte contextbudgetten. Om generalisatie over verschillende taaktypen te ondersteunen, introduceren we verder een uniforme datasynthesepijplijn die zoektaken construeert die zowel deterministische vraag-antwoordscenario's als open onderzoeksscenario's omvatten, met taakgeschikte evaluatiemetrics. We trainen een end-to-end agent met supervised fine-tuning en reinforcement learning, waarbij sterke en vaak state-of-the-art prestaties worden behaald op benchmarks zoals BrowseComp (48,6%), GAIA (75,7%), Xbench (82,0%) en DeepResearch Bench (45,9%). Vergeleken met Mirothinker-v1.0 reduceert SMTL met maximaal 100 interactiestappen het gemiddeld aantal redeneerstappen op BrowseComp met 70,7%, terwijl de nauwkeurigheid verbetert.
English
Recent deep research agents primarily improve performance by scaling reasoning depth, but this leads to high inference cost and latency in search-intensive scenarios. Moreover, generalization across heterogeneous research settings remains challenging. In this work, we propose Search More, Think Less (SMTL), a framework for long-horizon agentic search that targets both efficiency and generalization. SMTL replaces sequential reasoning with parallel evidence acquisition, enabling efficient context management under constrained context budgets. To support generalization across task types, we further introduce a unified data synthesis pipeline that constructs search tasks spanning both deterministic question answering and open-ended research scenarios with task appropriate evaluation metrics. We train an end-to-end agent using supervised fine-tuning and reinforcement learning, achieving strong and often state of the art performance across benchmarks including BrowseComp (48.6\%), GAIA (75.7\%), Xbench (82.0\%), and DeepResearch Bench (45.9\%). Compared to Mirothinker-v1.0, SMTL with maximum 100 interaction steps reduces the average number of reasoning steps on BrowseComp by 70.7\%, while improving accuracy.