Imparare a Recuperare dalle Traiettorie degli Agenti

Abstract

I sistemi di information retrieval (IR) sono stati tradizionalmente progettati e addestrati per utenti umani, con i metodi di apprendimento del ranking che si basano fortemente su log di interazione umana su larga scala, come i clic e il tempo di permanenza. Tuttavia, con la rapida emergenza di agenti di ricerca basati su grandi modelli linguistici (LLM), la fase di retrieval è sempre più consumata da agenti piuttosto che da esseri umani, ed è incorporata come componente centrale all'interno di cicli di ragionamento e azione multi-turn. In questo contesto, i modelli di retrieval addestrati secondo assunzioni antropocentriche mostrano una fondamentale discrepanza con il modo in cui gli agenti formulano le query e consumano i risultati. In questo lavoro, sosteniamo che i modelli di retrieval per la ricerca agent-based dovrebbero essere addestrati direttamente dai dati di interazione degli agenti. Introduciamo l'apprendimento del retrieval dalle traiettorie degli agenti come un nuovo paradigma di addestramento, in cui la supervisione è derivata da interazioni multi-step degli agenti. Attraverso un'analisi sistematica delle traiettorie degli agenti di ricerca, identifichiamo segnali comportamentali chiave che rivelano l'utilità dei documenti, incluse le azioni di navigazione, i rifiuti senza navigazione e le tracce di ragionamento post-navigazione. Guidati da queste intuizioni, proponiamo LRAT, un framework semplice ma efficace che estrae una supervisione di retrieval di alta qualità dalle traiettorie degli agenti e incorpora l'intensità di rilevanza attraverso un'ottimizzazione pesata. Esperimenti estesi su benchmark di ricerca approfondita, sia in-dominio che out-of-dominio, dimostrano che i retrieval addestrati con LRAT migliorano costantemente il richiamo delle evidenze, il successo end-to-end del task e l'efficienza esecutiva attraverso diverse architetture e scale di agenti. I nostri risultati evidenziano le traiettorie degli agenti come una fonte di supervisione pratica e scalabile, indicando una direzione promettente per il retrieval nell'era della ricerca agent-based.

English

Information retrieval (IR) systems have traditionally been designed and trained for human users, with learning-to-rank methods relying heavily on large-scale human interaction logs such as clicks and dwell time. With the rapid emergence of large language model (LLM) powered search agents, however, retrieval is increasingly consumed by agents rather than human beings, and is embedded as a core component within multi-turn reasoning and action loops. In this setting, retrieval models trained under human-centric assumptions exhibit a fundamental mismatch with the way agents issue queries and consume results. In this work, we argue that retrieval models for agentic search should be trained directly from agent interaction data. We introduce learning to retrieve from agent trajectories as a new training paradigm, where supervision is derived from multi-step agent interactions. Through a systematic analysis of search agent trajectories, we identify key behavioral signals that reveal document utility, including browsing actions, unbrowsed rejections, and post-browse reasoning traces. Guided by these insights, we propose LRAT, a simple yet effective framework that mines high-quality retrieval supervision from agent trajectories and incorporates relevance intensity through weighted optimization. Extensive experiments on both in-domain and out-of-domain deep research benchmarks demonstrate that retrievers trained with LRAT consistently improve evidence recall, end-to-end task success, and execution efficiency across diverse agent architectures and scales. Our results highlight agent trajectories as a practical and scalable supervision source, pointing to a promising direction for retrieval in the era of agentic search.

Imparare a Recuperare dalle Traiettorie degli Agenti

Learning to Retrieve from Agent Trajectories

Abstract

Support