Agentisch Zoeken in de Praktijk: Intenties en Trajectdynamiek van Meer dan 14 Miljoen Echte Zoekopdrachten

Samenvatting

Op LLM's gebaseerde zoekagentschappen worden steeds vaker ingezet voor meerstaps informatiezoektaken, maar de IR-gemeenschap beschikt nog over weinig empirisch inzicht in hoe agent-gedreven zoeksessies verlopen en hoe geretourneerd bewijsmateriaal wordt gebruikt. Dit artikel presenteert een grootschalige loganalyse van agent-gedreven zoekgedrag, gebaseerd op 14.44 miljoen zoekverzoeken (3.97 miljoen sessies) verzameld vanuit DeepResearchGym, een open-source zoek-API die wordt benaderd door externe agent-gedreven clients. We segmenteren de logs in sessies, kennen sessie-brede intenties en stapsgewijze queryherformuleringslabels toe met behulp van op LLM's gebaseerde annotatie, en introduceren Context-gedreven Term Adoptie Graad (CTAR) om te kwantificeren of nieuw geïntroduceerde querytermen herleidbaar zijn tot eerder verkregen bewijsmateriaal. Onze analyses onthullen onderscheidende gedragspatronen. Ten eerste bevat meer dan 90% van de meertalige sessies maximaal tien stappen, en vallen 89% van de intervallen tussen stappen onder de één minuut. Ten tweede varieert het gedrag per intentie. Feitenzoekende sessies vertonen een hoge mate van herhaling die in de tijd toeneemt, terwijl sessies die redenering vereisen een bredere verkenning volhouden. Ten derde hergebruiken agents bewijsmateriaal over stappen heen. Gemiddeld verschijnt 54% van de nieuw geïntroduceerde querytermen in de geaccumuleerde bewijscontext, waarbij eerdere stappen, voorbij de meest recente retrieval, hieraan bijdragen. De bevindingen suggereren dat agent-gedreven zoeken baat kan hebben bij herhalingsbewust vroegtijdig stoppen, intentie-adaptieve retrievalbudgetten en expliciete contexttracking over stappen heen. We zijn van plan de geanonimiseerde logs vrij te geven om toekomstig onderzoek te ondersteunen.

English

LLM-powered search agents are increasingly being used for multi-step information seeking tasks, yet the IR community lacks empirical understanding of how agentic search sessions unfold and how retrieved evidence is used. This paper presents a large-scale log analysis of agentic search based on 14.44M search requests (3.97M sessions) collected from DeepResearchGym, i.e. an open-source search API accessed by external agentic clients. We sessionize the logs, assign session-level intents and step-wise query-reformulation labels using LLM-based annotation, and propose Context-driven Term Adoption Rate (CTAR) to quantify whether newly introduced query terms are traceable to previously retrieved evidence. Our analyses reveal distinctive behavioral patterns. First, over 90% of multi-turn sessions contain at most ten steps, and 89% of inter-step intervals fall under one minute. Second, behavior varies by intent. Fact-seeking sessions exhibit high repetition that increases over time, while sessions requiring reasoning sustain broader exploration. Third, agents reuse evidence across steps. On average, 54% of newly introduced query terms appear in the accumulated evidence context, with contributions from earlier steps beyond the most recent retrieval. The findings suggest that agentic search may benefit from repetition-aware early stopping, intent-adaptive retrieval budgets, and explicit cross-step context tracking. We plan to release the anonymized logs to support future research.

Agentisch Zoeken in de Praktijk: Intenties en Trajectdynamiek van Meer dan 14 Miljoen Echte Zoekopdrachten

Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests

Samenvatting

Support