Обучение извлечению информации из траекторий агентов

Аннотация

Традиционно системы поиска информации (Information Retrieval, IR) проектировались и обучались для пользователей-людей, при этом методы обучения ранжированию (learning-to-rank) в значительной степени опирались на масштабные логи человеческого взаимодействия, такие как клики и время просмотра. Однако с быстрым появлением поисковых агентов на основе больших языковых моделей (LLM) потребление результатов поиска все чаще осуществляется агентами, а не людьми, и поиск становится встроенным ключевым компонентом в многопроходные циклы рассуждений и действий. В этом контексте модели поиска, обученные в рамках антропоцентрических предположений, демонстрируют фундаментальное несоответствие с тем, как агенты формируют запросы и используют результаты. В данной работе мы утверждаем, что модели поиска для агентского поиска следует обучать непосредственно на данных взаимодействия с агентами. Мы представляем парадигму обучения извлечению информации на основе траекторий агентов (learning to retrieve from agent trajectories), где обучение происходит на основе многошаговых взаимодействий с агентом. Посредством системного анализа траекторий поисковых агентов мы выявляем ключевые поведенческие сигналы, раскрывающие полезность документов, включая действия просмотра, отклонения без просмотра и следы рассуждений после ознакомления. Руководствуясь этими инсайтами, мы предлагаем LRAT — простую, но эффективную框架, которая извлекает высококачественные данные для обучения поиска из траекторий агентов и учитывает интенсивность релевантности через взвешенную оптимизацию. Многочисленные эксперименты на внутри- и внедоменных бенчмарках для глубокого исследования демонстрируют, что модели поиска, обученные с помощью LRAT, последовательно улучшают полноту охвата evidence, успешность выполнения сквозных задач и эффективность исполнения для разнообразных архитектур агентов и их масштабов. Наши результаты подчеркивают траектории агентов как практичный и масштабируемый источник данных для обучения, указывая перспективное направление для развития поиска в эпоху агентского поиска.

English

Information retrieval (IR) systems have traditionally been designed and trained for human users, with learning-to-rank methods relying heavily on large-scale human interaction logs such as clicks and dwell time. With the rapid emergence of large language model (LLM) powered search agents, however, retrieval is increasingly consumed by agents rather than human beings, and is embedded as a core component within multi-turn reasoning and action loops. In this setting, retrieval models trained under human-centric assumptions exhibit a fundamental mismatch with the way agents issue queries and consume results. In this work, we argue that retrieval models for agentic search should be trained directly from agent interaction data. We introduce learning to retrieve from agent trajectories as a new training paradigm, where supervision is derived from multi-step agent interactions. Through a systematic analysis of search agent trajectories, we identify key behavioral signals that reveal document utility, including browsing actions, unbrowsed rejections, and post-browse reasoning traces. Guided by these insights, we propose LRAT, a simple yet effective framework that mines high-quality retrieval supervision from agent trajectories and incorporates relevance intensity through weighted optimization. Extensive experiments on both in-domain and out-of-domain deep research benchmarks demonstrate that retrievers trained with LRAT consistently improve evidence recall, end-to-end task success, and execution efficiency across diverse agent architectures and scales. Our results highlight agent trajectories as a practical and scalable supervision source, pointing to a promising direction for retrieval in the era of agentic search.

Обучение извлечению информации из траекторий агентов

Learning to Retrieve from Agent Trajectories

Аннотация

Support