Leren ophalen uit agenttrajecten

Samenvatting

Informatieretrieval (IR)-systemen zijn traditioneel ontworpen en getraind voor menselijke gebruikers, waarbij 'learning-to-rank'-methoden sterk leunen op grootschalige menselijke interactielogboeken, zoals klikken en 'dwell time'. Met de snelle opkomst van zoekagenten aangedreven door grote taalmmodellen (LLM's) wordt retrievel echter steeds vaker gebruikt door agenten in plaats van door mensen, en is het ingebed als een kerncomponent binnen meerzijdige redeneer- en actielussen. In deze context vertonen retrievalmodellen die zijn getraind onder mensgerichte aannames een fundamentele mismatch met de manier waarop agenten queries uitvaardigen en resultaten verwerken. In dit werk beargumenteren we dat retrievalmodellen voor agent-gebaseerd zoeken rechtstreeks getraind moeten worden met interactiegegevens van agenten. We introduceren 'learning to retrieve from agent trajectories' als een nieuw trainingsparadigma, waarbij supervisie wordt afgeleid uit meerstaps interacties van agenten. Via een systematische analyse van zoekagenttrajecten identificeren we cruciale gedragssignalen die de bruikbaarheid van documenten onthullen, waaronder bladeracties, niet-bekeken afwijzingen en redeneersporen na het bekijken. Geleid door deze inzichten stellen we LRAT voor, een eenvoudig maar effectief framework dat hoogwaardige retrievalsupervisie uit agenttrajecten haalt en relevantie-intensiteit incorporeert via gewogen optimalisatie. Uitgebreide experimenten op zowel in-domein als out-of-domein 'deep research'-benchmarks tonen aan dat retrievers getraind met LRAT consistent de terugvindbaarheid van bewijs, end-to-end taaksucces en uitvoeringsefficiëntie verbeteren across diverse agentarchitecturen en -schalen. Onze resultaten benadrukken agenttrajecten als een praktische en schaalbare supervisiebron, wat wijst op een veelbelovende richting voor retrievel in het tijdperk van agent-gebaseerd zoeken.

English

Information retrieval (IR) systems have traditionally been designed and trained for human users, with learning-to-rank methods relying heavily on large-scale human interaction logs such as clicks and dwell time. With the rapid emergence of large language model (LLM) powered search agents, however, retrieval is increasingly consumed by agents rather than human beings, and is embedded as a core component within multi-turn reasoning and action loops. In this setting, retrieval models trained under human-centric assumptions exhibit a fundamental mismatch with the way agents issue queries and consume results. In this work, we argue that retrieval models for agentic search should be trained directly from agent interaction data. We introduce learning to retrieve from agent trajectories as a new training paradigm, where supervision is derived from multi-step agent interactions. Through a systematic analysis of search agent trajectories, we identify key behavioral signals that reveal document utility, including browsing actions, unbrowsed rejections, and post-browse reasoning traces. Guided by these insights, we propose LRAT, a simple yet effective framework that mines high-quality retrieval supervision from agent trajectories and incorporates relevance intensity through weighted optimization. Extensive experiments on both in-domain and out-of-domain deep research benchmarks demonstrate that retrievers trained with LRAT consistently improve evidence recall, end-to-end task success, and execution efficiency across diverse agent architectures and scales. Our results highlight agent trajectories as a practical and scalable supervision source, pointing to a promising direction for retrieval in the era of agentic search.

Leren ophalen uit agenttrajecten

Learning to Retrieve from Agent Trajectories

Samenvatting

Support