Apprentissage de la récupération d'informations à partir des trajectoires d'agents
Learning to Retrieve from Agent Trajectories
March 30, 2026
Auteurs: Yuqi Zhou, Sunhao Dai, Changle Qu, Liang Pang, Jun Xu, Ji-Rong Wen
cs.AI
Résumé
Les systèmes de recherche d'information (RI) ont traditionnellement été conçus et entraînés pour des utilisateurs humains, les méthodes d'apprentissage du classement reposant largement sur des logs d'interaction humaine à grande échelle tels que les clics et le temps de consultation. Cependant, avec l'émergence rapide d'agents de recherche alimentés par des grands modèles de langage (LLM), la récupération est de plus en plus consommée par des agents plutôt que par des êtres humains, et est intégrée comme composant central dans des boucles de raisonnement et d'action multi-tours. Dans ce contexte, les modèles de recherche entraînés selon des hypothèses centrées sur l'humain présentent une inadéquation fondamentale avec la manière dont les agents formulent des requêtes et consomment les résultats. Dans ce travail, nous soutenons que les modèles de recherche pour la recherche agentique devraient être entraînés directement à partir des données d'interaction des agents. Nous introduisons l'apprentissage de la récupération à partir des trajectoires d'agents comme un nouveau paradigme d'entraînement, où la supervision est dérivée d'interactions agentiques multi-étapes. Par une analyse systématique des trajectoires des agents de recherche, nous identifions des signaux comportementaux clés qui révèlent l'utilité des documents, incluant les actions de navigation, les rejets non consultés et les traces de raisonnement post-consultation. Guidés par ces observations, nous proposons LRAT, un cadre simple mais efficace qui extrait une supervision de haute qualité pour la recherche à partir des trajectoires d'agents et intègre l'intensité de pertinence via une optimisation pondérée. Des expériences approfondies sur des benchmarks de recherche approfondie en domaine connu et hors domaine démontrent que les retrieveurs entraînés avec LRAT améliorent constamment le rappel des preuves, la réussite des tâches de bout en bout et l'efficacité d'exécution sur diverses architectures et échelles d'agents. Nos résultats mettent en évidence les trajectoires d'agents comme source de supervision pratique et évolutive, indiquant une direction prometteuse pour la recherche d'information à l'ère de la recherche agentique.
English
Information retrieval (IR) systems have traditionally been designed and trained for human users, with learning-to-rank methods relying heavily on large-scale human interaction logs such as clicks and dwell time. With the rapid emergence of large language model (LLM) powered search agents, however, retrieval is increasingly consumed by agents rather than human beings, and is embedded as a core component within multi-turn reasoning and action loops. In this setting, retrieval models trained under human-centric assumptions exhibit a fundamental mismatch with the way agents issue queries and consume results. In this work, we argue that retrieval models for agentic search should be trained directly from agent interaction data. We introduce learning to retrieve from agent trajectories as a new training paradigm, where supervision is derived from multi-step agent interactions. Through a systematic analysis of search agent trajectories, we identify key behavioral signals that reveal document utility, including browsing actions, unbrowsed rejections, and post-browse reasoning traces. Guided by these insights, we propose LRAT, a simple yet effective framework that mines high-quality retrieval supervision from agent trajectories and incorporates relevance intensity through weighted optimization. Extensive experiments on both in-domain and out-of-domain deep research benchmarks demonstrate that retrievers trained with LRAT consistently improve evidence recall, end-to-end task success, and execution efficiency across diverse agent architectures and scales. Our results highlight agent trajectories as a practical and scalable supervision source, pointing to a promising direction for retrieval in the era of agentic search.