Cerca di Più, Pensa Meno: Ripensare la Ricerca Agente a Lungo Orizzonte per Efficienza e Generalizzazione

Abstract

I recenti agenti di ricerca avanzati migliorano principalmente le prestazioni aumentando la profondità di ragionamento, ma questo comporta elevati costi inferenziali e latenza negli scenari di ricerca intensiva. Inoltre, la generalizzazione tra contesti di ricerca eterogenei rimane problematica. In questo lavoro, proponiamo Search More, Think Less (SMTL), un framework per la ricerca agente a lungo termine che mira sia all'efficienza che alla generalizzazione. SMTL sostituisce il ragionamento sequenziale con l'acquisizione parallela di evidenze, consentendo una gestione efficiente del contesto con budget limitati. Per supportare la generalizzazione tra tipi di task, introduciamo inoltre una pipeline unificata di sintesi dati che costruisce attività di ricerca che spaziano dall'answer answering deterministico a scenari di ricerca aperti con metriche di valutazione appropriate. Addestriamo un agente end-to-end utilizzando fine-tuning supervisionato e reinforcement learning, raggiungendo prestazioni solide e spesso all'avanguardia su benchmark come BrowseComp (48,6%), GAIA (75,7%), Xbench (82,0%) e DeepResearch Bench (45,9%). Rispetto a Mirothinker-v1.0, SMTL con un massimo di 100 step interattivi riduce il numero medio di step di ragionamento su BrowseComp del 70,7%, migliorando al contempo l'accuratezza.

English

Recent deep research agents primarily improve performance by scaling reasoning depth, but this leads to high inference cost and latency in search-intensive scenarios. Moreover, generalization across heterogeneous research settings remains challenging. In this work, we propose Search More, Think Less (SMTL), a framework for long-horizon agentic search that targets both efficiency and generalization. SMTL replaces sequential reasoning with parallel evidence acquisition, enabling efficient context management under constrained context budgets. To support generalization across task types, we further introduce a unified data synthesis pipeline that constructs search tasks spanning both deterministic question answering and open-ended research scenarios with task appropriate evaluation metrics. We train an end-to-end agent using supervised fine-tuning and reinforcement learning, achieving strong and often state of the art performance across benchmarks including BrowseComp (48.6\%), GAIA (75.7\%), Xbench (82.0\%), and DeepResearch Bench (45.9\%). Compared to Mirothinker-v1.0, SMTL with maximum 100 interaction steps reduces the average number of reasoning steps on BrowseComp by 70.7\%, while improving accuracy.

Cerca di Più, Pensa Meno: Ripensare la Ricerca Agente a Lungo Orizzonte per Efficienza e Generalizzazione

Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Abstract

Support