ChatPaper.aiChatPaper

Recherche agentique en situation réelle : intentions et dynamique des trajectoires à partir de plus de 14 millions de requêtes de recherche authentiques

Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests

January 24, 2026
papers.authors: Jingjie Ning, João Coelho, Yibo Kong, Yunfan Long, Bruno Martins, João Magalhães, Jamie Callan, Chenyan Xiong
cs.AI

papers.abstract

Les agents de recherche alimentés par des modèles de langage (LLM) sont de plus en plus utilisés pour des tâches de recherche d'information multi-étapes, mais la communauté de la RI manque encore d'une compréhension empirique de la manière dont les sessions de recherche agentiques se déroulent et dont les preuves récupérées sont utilisées. Cet article présente une analyse à grande échelle des logs de recherche agentique basée sur 14,44 millions de requêtes (3,97 millions de sessions) collectées depuis DeepResearchGym, une API de recherche open source accessible par des clients agentiques externes. Nous segmentons les logs en sessions, attribuons des intentions au niveau de la session et des étiquettes de reformulation des requêtes étape par étape en utilisant une annotation basée sur des LLM, et proposons le Taux d'Adoption de Termes Contexte-Drivé (CTAR) pour quantifier si les nouveaux termes introduits dans les requêtes sont traçables vers les preuves précédemment récupérées. Nos analyses révèlent des schémas comportementaux distinctifs. Premièrement, plus de 90 % des sessions multi-tours contiennent au maximum dix étapes, et 89 % des intervalles entre les étapes sont inférieurs à une minute. Deuxièmement, le comportement varie selon l'intention. Les sessions de recherche factuelle présentent une forte répétition qui augmente avec le temps, tandis que les sessions nécessitant un raisonnement maintiennent une exploration plus large. Troisièmement, les agents réutilisent les preuves entre les étapes. En moyenne, 54 % des nouveaux termes de requête introduits apparaissent dans le contexte des preuves accumulées, avec des contributions des étapes antérieures au-delà de la récupération la plus récente. Ces résultats suggèrent que la recherche agentique pourrait bénéficier d'un arrêt anticipé sensible à la répétition, de budgets de récupération adaptatifs selon l'intention, et d'un suivi explicite du contexte inter-étapes. Nous prévoyons de publier les logs anonymisés pour soutenir les recherches futures.
English
LLM-powered search agents are increasingly being used for multi-step information seeking tasks, yet the IR community lacks empirical understanding of how agentic search sessions unfold and how retrieved evidence is used. This paper presents a large-scale log analysis of agentic search based on 14.44M search requests (3.97M sessions) collected from DeepResearchGym, i.e. an open-source search API accessed by external agentic clients. We sessionize the logs, assign session-level intents and step-wise query-reformulation labels using LLM-based annotation, and propose Context-driven Term Adoption Rate (CTAR) to quantify whether newly introduced query terms are traceable to previously retrieved evidence. Our analyses reveal distinctive behavioral patterns. First, over 90% of multi-turn sessions contain at most ten steps, and 89% of inter-step intervals fall under one minute. Second, behavior varies by intent. Fact-seeking sessions exhibit high repetition that increases over time, while sessions requiring reasoning sustain broader exploration. Third, agents reuse evidence across steps. On average, 54% of newly introduced query terms appear in the accumulated evidence context, with contributions from earlier steps beyond the most recent retrieval. The findings suggest that agentic search may benefit from repetition-aware early stopping, intent-adaptive retrieval budgets, and explicit cross-step context tracking. We plan to release the anonymized logs to support future research.
PDF01January 28, 2026