Ricerca Agente in Contesti Reali: Intenzioni e Dinamiche delle Traiettorie da Oltre 14 Milioni di Ricerche Autentiche

Abstract

Gli agenti di ricerca basati su LLM (Large Language Models) sono sempre più utilizzati per attività di ricerca di informazioni multi-step, eppure la comunità IR (Information Retrieval) manca di una comprensione empirica di come si sviluppano le sessioni di ricerca agentive e di come le evidenze recuperate vengano utilizzate. Questo articolo presenta un'analisi su larga scala dei log della ricerca agentiva, basata su 14.44 milioni di richieste di ricerca (3.97 milioni di sessioni) raccolte da DeepResearchGym, ovvero un'API di ricerca open-source a cui accedono client agentivi esterni. Organizziamo i log in sessioni, assegniamo intenti a livello di sessione ed etichette di riformulazione delle query passo-passo utilizzando annotazioni basate su LLM, e proponiamo il Tasso di Adozione dei Termini guidato dal Contesto (Context-driven Term Adoption Rate, CTAR) per quantificare se i termini di query introdotti di recente siano riconducibili a evidenze recuperate in precedenza. Le nostre analisi rivelano modelli comportamentali distintivi. In primo luogo, oltre il 90% delle sessioni multi-turn contiene al massimo dieci passi, e l'89% degli intervalli tra i passi è inferiore a un minuto. In secondo luogo, il comportamento varia in base all'intento. Le sessioni di ricerca di fatti mostrano un'elevata ripetizione che aumenta nel tempo, mentre le sessioni che richiedono ragionamento mantengono un'esplorazione più ampia. In terzo luogo, gli agenti riutilizzano le evidenze attraverso i passi. In media, il 54% dei termini di query introdotti di recente appare nel contesto delle evidenze accumulate, con contributi provenienti da passi precedenti oltre al recupero più recente. I risultati suggeriscono che la ricerca agentiva potrebbe trarre vantaggio da un arresto anticipato consapevole della ripetizione, budget di recupero adattivi all'intento e un tracking esplicito del contesto tra i passi. Prevediamo di rilasciare i log anonimizzati per supportare la ricerca futura.

English

LLM-powered search agents are increasingly being used for multi-step information seeking tasks, yet the IR community lacks empirical understanding of how agentic search sessions unfold and how retrieved evidence is used. This paper presents a large-scale log analysis of agentic search based on 14.44M search requests (3.97M sessions) collected from DeepResearchGym, i.e. an open-source search API accessed by external agentic clients. We sessionize the logs, assign session-level intents and step-wise query-reformulation labels using LLM-based annotation, and propose Context-driven Term Adoption Rate (CTAR) to quantify whether newly introduced query terms are traceable to previously retrieved evidence. Our analyses reveal distinctive behavioral patterns. First, over 90% of multi-turn sessions contain at most ten steps, and 89% of inter-step intervals fall under one minute. Second, behavior varies by intent. Fact-seeking sessions exhibit high repetition that increases over time, while sessions requiring reasoning sustain broader exploration. Third, agents reuse evidence across steps. On average, 54% of newly introduced query terms appear in the accumulated evidence context, with contributions from earlier steps beyond the most recent retrieval. The findings suggest that agentic search may benefit from repetition-aware early stopping, intent-adaptive retrieval budgets, and explicit cross-step context tracking. We plan to release the anonymized logs to support future research.

Ricerca Agente in Contesti Reali: Intenzioni e Dinamiche delle Traiettorie da Oltre 14 Milioni di Ricerche Autentiche

Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests

Abstract

Support