Aprendizaje de Recuperación a partir de Trayectorias de Agentes

Resumen

Los sistemas de recuperación de información (RI) se han diseñado y entrenado tradicionalmente para usuarios humanos, basándose los métodos de aprendizaje para clasificar (learning-to-rank) en gran medida en registros de interacción humana a gran escala, como los clics y el tiempo de permanencia. Sin embargo, con el rápido surgimiento de agentes de búsqueda impulsados por modelos de lenguaje grande (LLM), la recuperación es consumida cada vez más por agentes en lugar de por seres humanos, y está integrada como un componente central dentro de bucles de razonamiento y acción de múltiples turnos. En este contexto, los modelos de recuperación entrenados bajo supuestos centrados en el humano presentan una discrepancia fundamental con la forma en que los agentes emiten consultas y consumen resultados. En este trabajo, sostenemos que los modelos de recuperación para la búsqueda agencial deben entrenarse directamente a partir de datos de interacción de agentes. Introducimos el *aprendizaje para recuperar a partir de trayectorias de agentes* como un nuevo paradigma de entrenamiento, donde la supervisión se deriva de interacciones multi-paso de los agentes. Mediante un análisis sistemático de las trayectorias de los agentes de búsqueda, identificamos señales clave de comportamiento que revelan la utilidad de los documentos, incluyendo acciones de navegación, rechazos de documentos no navegados y trazas de razonamiento posteriores a la navegación. Guiados por estas observaciones, proponemos LRAT, un marco simple pero efectivo que extrae una supervisión de recuperación de alta calidad de las trayectorias de los agentes e incorpora la intensidad de la relevancia mediante una optimización ponderada. Experimentos exhaustivos en benchmarks de investigación profunda, tanto dentro como fuera del dominio, demuestran que los recuperadores entrenados con LRAT mejoran consistentemente la recuperación de evidencia, el éxito de la tarea integral y la eficiencia de ejecución en diversas arquitecturas y escalas de agentes. Nuestros resultados destacan las trayectorias de los agentes como una fuente de supervisión práctica y escalable, señalando una dirección prometedora para la recuperación en la era de la búsqueda agencial.

English

Information retrieval (IR) systems have traditionally been designed and trained for human users, with learning-to-rank methods relying heavily on large-scale human interaction logs such as clicks and dwell time. With the rapid emergence of large language model (LLM) powered search agents, however, retrieval is increasingly consumed by agents rather than human beings, and is embedded as a core component within multi-turn reasoning and action loops. In this setting, retrieval models trained under human-centric assumptions exhibit a fundamental mismatch with the way agents issue queries and consume results. In this work, we argue that retrieval models for agentic search should be trained directly from agent interaction data. We introduce learning to retrieve from agent trajectories as a new training paradigm, where supervision is derived from multi-step agent interactions. Through a systematic analysis of search agent trajectories, we identify key behavioral signals that reveal document utility, including browsing actions, unbrowsed rejections, and post-browse reasoning traces. Guided by these insights, we propose LRAT, a simple yet effective framework that mines high-quality retrieval supervision from agent trajectories and incorporates relevance intensity through weighted optimization. Extensive experiments on both in-domain and out-of-domain deep research benchmarks demonstrate that retrievers trained with LRAT consistently improve evidence recall, end-to-end task success, and execution efficiency across diverse agent architectures and scales. Our results highlight agent trajectories as a practical and scalable supervision source, pointing to a promising direction for retrieval in the era of agentic search.

Aprendizaje de Recuperación a partir de Trayectorias de Agentes

Learning to Retrieve from Agent Trajectories

Resumen

Support