Lernen, aus Agenten-Trajektorien abzurufen

Zusammenfassung

Information-Retrieval(IR)-Systeme wurden traditionell für menschliche Nutzer entwickelt und trainiert, wobei Learning-to-Rank-Methoden stark auf groß angelegten menschlichen Interaktionsdaten wie Klicks und Verweildauern basieren. Mit dem raschen Aufkommen von Suchagenten, die auf großen Sprachmodellen (LLMs) basieren, wird der Abruf jedoch zunehmend von Agenten statt von Menschen genutzt und als Kernkomponente in mehrstufige Reasoning- und Aktionsschleifen eingebettet. In diesem Kontext weisen Retrieval-Modelle, die unter menschenzentrierten Annahmen trainiert wurden, eine grundlegende Diskrepanz zur Art und Weise auf, wie Agenten Anfragen stellen und Ergebnisse verarbeiten. In dieser Arbeit argumentieren wir, dass Retrieval-Modelle für agentenbasierte Suche direkt aus Agenteninteraktionsdaten trainiert werden sollten. Wir führen „Learning to Retrieve from Agent Trajectories“ als neues Trainingsparadigma ein, bei dem die Supervision aus mehrstufigen Agenteninteraktionen abgeleitet wird. Durch eine systematische Analyse von Suchagenten-Trajektorien identifizieren wir wichtige Verhaltenssignale, die die Nützlichkeit von Dokumenten offenbaren, darunter Browse-Aktionen, nicht angesehene Ablehnungen und Reasoning-Spuren nach dem Betrachten. Aufbauend auf diesen Erkenntnissen schlagen wir LRAT vor, ein einfaches aber effektives Framework, das hochwertige Retrieval-Supervision aus Agenten-Trajektorien extrahiert und Relevanzintensität durch gewichtete Optimierung einbezieht. Umfangreiche Experimente auf sowohl domäneninternen als auch domänenexternen Deep-Research-Benchmarks zeigen, dass mit LRAT trainierte Retrieval-Systeme durchgängig die Evidenzwiederauffindung, den End-to-End-Aufgabenerfolg und die Ausführungseffizienz über verschiedene Agentenarchitekturen und Skalen hinweg verbessern. Unsere Ergebnisse unterstreichen Agenten-Trajektorien als praktische und skalierbare Quelle für Supervision und weisen auf eine vielversprechende Richtung für Retrieval im Zeitalter der agentenbasierten Suche hin.

English

Information retrieval (IR) systems have traditionally been designed and trained for human users, with learning-to-rank methods relying heavily on large-scale human interaction logs such as clicks and dwell time. With the rapid emergence of large language model (LLM) powered search agents, however, retrieval is increasingly consumed by agents rather than human beings, and is embedded as a core component within multi-turn reasoning and action loops. In this setting, retrieval models trained under human-centric assumptions exhibit a fundamental mismatch with the way agents issue queries and consume results. In this work, we argue that retrieval models for agentic search should be trained directly from agent interaction data. We introduce learning to retrieve from agent trajectories as a new training paradigm, where supervision is derived from multi-step agent interactions. Through a systematic analysis of search agent trajectories, we identify key behavioral signals that reveal document utility, including browsing actions, unbrowsed rejections, and post-browse reasoning traces. Guided by these insights, we propose LRAT, a simple yet effective framework that mines high-quality retrieval supervision from agent trajectories and incorporates relevance intensity through weighted optimization. Extensive experiments on both in-domain and out-of-domain deep research benchmarks demonstrate that retrievers trained with LRAT consistently improve evidence recall, end-to-end task success, and execution efficiency across diverse agent architectures and scales. Our results highlight agent trajectories as a practical and scalable supervision source, pointing to a promising direction for retrieval in the era of agentic search.