Meer zoeken, minder denken: Een herziening van langetermijn-agentgericht zoeken voor efficiëntie en generalisatie

Samenvatting

Recente deep research-agents verbeteren de prestaties vooral door de redeneerdiepte op te schalen, maar dit leidt tot hoge inferentiekosten en latentie in zoekintensieve scenario's. Bovendien blijft generalisatie over heterogene onderzoekssettings een uitdaging. In dit werk stellen we Search More, Think Less (SMTL) voor, een raamwerk voor langetermijn agent-gebaseerd zoeken dat zowel efficiëntie als generalisatie beoogt. SMTL vervangt sequentieel redeneren door parallelle verwerving van bewijs, waardoor efficiënt contextbeheer mogelijk wordt onder beperkte contextbudgetten. Om generalisatie over verschillende taaktypen te ondersteunen, introduceren we verder een uniforme datasynthesepijplijn die zoektaken construeert die zowel deterministische vraag-antwoordscenario's als open onderzoeksscenario's omvatten, met taakgeschikte evaluatiemetrics. We trainen een end-to-end agent met supervised fine-tuning en reinforcement learning, waarbij sterke en vaak state-of-the-art prestaties worden behaald op benchmarks zoals BrowseComp (48,6%), GAIA (75,7%), Xbench (82,0%) en DeepResearch Bench (45,9%). Vergeleken met Mirothinker-v1.0 reduceert SMTL met maximaal 100 interactiestappen het gemiddeld aantal redeneerstappen op BrowseComp met 70,7%, terwijl de nauwkeurigheid verbetert.

English

Recent deep research agents primarily improve performance by scaling reasoning depth, but this leads to high inference cost and latency in search-intensive scenarios. Moreover, generalization across heterogeneous research settings remains challenging. In this work, we propose Search More, Think Less (SMTL), a framework for long-horizon agentic search that targets both efficiency and generalization. SMTL replaces sequential reasoning with parallel evidence acquisition, enabling efficient context management under constrained context budgets. To support generalization across task types, we further introduce a unified data synthesis pipeline that constructs search tasks spanning both deterministic question answering and open-ended research scenarios with task appropriate evaluation metrics. We train an end-to-end agent using supervised fine-tuning and reinforcement learning, achieving strong and often state of the art performance across benchmarks including BrowseComp (48.6\%), GAIA (75.7\%), Xbench (82.0\%), and DeepResearch Bench (45.9\%). Compared to Mirothinker-v1.0, SMTL with maximum 100 interaction steps reduces the average number of reasoning steps on BrowseComp by 70.7\%, while improving accuracy.

Meer zoeken, minder denken: Een herziening van langetermijn-agentgericht zoeken voor efficiëntie en generalisatie

Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Samenvatting

Support