Aprendendo a Recuperar Informações de Trajetórias de Agentes
Learning to Retrieve from Agent Trajectories
March 30, 2026
Autores: Yuqi Zhou, Sunhao Dai, Changle Qu, Liang Pang, Jun Xu, Ji-Rong Wen
cs.AI
Resumo
Os sistemas de recuperação de informação (RI) foram tradicionalmente concebidos e treinados para utilizadores humanos, com os métodos de aprendizagem para ordenação (learning-to-rank) a dependerem fortemente de registos de interação humana em larga escala, como cliques e tempo de permanência. No entanto, com o rápido surgimento de agentes de pesquisa baseados em grandes modelos de linguagem (LLM), a recuperação é cada vez mais consumida por agentes em vez de seres humanos, e está integrada como um componente central dentro de ciclos de raciocínio e ação multi-turn. Neste contexto, os modelos de recuperação treinados sob pressupostos centrados no humano exibem um desajuste fundamental com a forma como os agentes emitem consultas e consomem resultados. Neste trabalho, argumentamos que os modelos de recuperação para pesquisa agentiva devem ser treinados diretamente a partir de dados de interação de agentes. Introduzimos a aprendizagem para recuperar a partir de trajetórias de agentes como um novo paradigma de treino, onde a supervisão é derivada de interações multi-etapa dos agentes. Através de uma análise sistemática das trajetórias dos agentes de pesquisa, identificamos sinais comportamentais-chave que revelam a utilidade dos documentos, incluindo ações de navegação, rejeições não navegadas e traços de raciocínio pós-navegação. Guiados por estas perceções, propomos o LRAT, um quadro simples mas eficaz que extrai supervisão de recuperação de alta qualidade a partir de trajetórias de agentes e incorpora intensidade de relevância através de otimização ponderada. Experiências extensivas em benchmarks de pesquisa profunda, tanto dentro como fora do domínio, demonstram que os recuperadores treinados com LRAT melhoram consistentemente a recuperação de evidências, o sucesso de tarefas de ponta a ponta e a eficiência de execução em diversas arquiteturas e escalas de agentes. Os nossos resultados destacam as trajetórias de agentes como uma fonte de supervisão prática e escalável, apontando para uma direção promissora para a recuperação na era da pesquisa agentiva.
English
Information retrieval (IR) systems have traditionally been designed and trained for human users, with learning-to-rank methods relying heavily on large-scale human interaction logs such as clicks and dwell time. With the rapid emergence of large language model (LLM) powered search agents, however, retrieval is increasingly consumed by agents rather than human beings, and is embedded as a core component within multi-turn reasoning and action loops. In this setting, retrieval models trained under human-centric assumptions exhibit a fundamental mismatch with the way agents issue queries and consume results. In this work, we argue that retrieval models for agentic search should be trained directly from agent interaction data. We introduce learning to retrieve from agent trajectories as a new training paradigm, where supervision is derived from multi-step agent interactions. Through a systematic analysis of search agent trajectories, we identify key behavioral signals that reveal document utility, including browsing actions, unbrowsed rejections, and post-browse reasoning traces. Guided by these insights, we propose LRAT, a simple yet effective framework that mines high-quality retrieval supervision from agent trajectories and incorporates relevance intensity through weighted optimization. Extensive experiments on both in-domain and out-of-domain deep research benchmarks demonstrate that retrievers trained with LRAT consistently improve evidence recall, end-to-end task success, and execution efficiency across diverse agent architectures and scales. Our results highlight agent trajectories as a practical and scalable supervision source, pointing to a promising direction for retrieval in the era of agentic search.