Rechercher plus, réfléchir moins : Repenser la recherche agentique à long terme pour l'efficacité et la généralisation

Résumé

Les agents de recherche approfondie récents améliorent principalement leurs performances en augmentant la profondeur de raisonnement, mais cela entraîne un coût d'inférence élevé et une latence importante dans les scénarios nécessitant une recherche intensive. De plus, la généralisation à travers des environnements de recherche hétérogènes reste difficile. Dans ce travail, nous proposons Search More, Think Less (SMTL), un cadre pour la recherche agentique à long horizon qui vise à la fois l'efficacité et la généralisation. SMTL remplace le raisonnement séquentiel par une acquisition parallèle de preuves, permettant une gestion efficace du contexte sous contrainte budgétaire. Pour soutenir la généralisation across les types de tâches, nous introduisons en outre un pipeline unifié de synthèse de données qui construit des tâches de recherche couvrant à la fois le question-réponse déterministe et les scénarios de recherche ouverts, avec des métriques d'évaluation adaptées à chaque tâche. Nous entraînons un agent de bout en bout par fine-tuning supervisé et apprentissage par renforcement, obtenant des performances solides et souvent state-of-the-art sur plusieurs benchmarks incluant BrowseComp (48,6 %), GAIA (75,7 %), Xbench (82,0 %) et DeepResearch Bench (45,9 %). Comparé à Mirothinker-v1.0, SMTL avec un maximum de 100 étapes d'interaction réduit le nombre moyen d'étapes de raisonnement sur BrowseComp de 70,7 %, tout en améliorant la précision.

English

Recent deep research agents primarily improve performance by scaling reasoning depth, but this leads to high inference cost and latency in search-intensive scenarios. Moreover, generalization across heterogeneous research settings remains challenging. In this work, we propose Search More, Think Less (SMTL), a framework for long-horizon agentic search that targets both efficiency and generalization. SMTL replaces sequential reasoning with parallel evidence acquisition, enabling efficient context management under constrained context budgets. To support generalization across task types, we further introduce a unified data synthesis pipeline that constructs search tasks spanning both deterministic question answering and open-ended research scenarios with task appropriate evaluation metrics. We train an end-to-end agent using supervised fine-tuning and reinforcement learning, achieving strong and often state of the art performance across benchmarks including BrowseComp (48.6\%), GAIA (75.7\%), Xbench (82.0\%), and DeepResearch Bench (45.9\%). Compared to Mirothinker-v1.0, SMTL with maximum 100 interaction steps reduces the average number of reasoning steps on BrowseComp by 70.7\%, while improving accuracy.

Rechercher plus, réfléchir moins : Repenser la recherche agentique à long terme pour l'efficacité et la généralisation

Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Résumé

Support