ChatPaper.aiChatPaper

Агентный поиск в реальных условиях: интенции и динамика траекторий на основе 14+ миллионов реальных поисковых запросов

Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests

January 24, 2026
Авторы: Jingjie Ning, João Coelho, Yibo Kong, Yunfan Long, Bruno Martins, João Magalhães, Jamie Callan, Chenyan Xiong
cs.AI

Аннотация

Поисковые агенты на основе больших языковых моделей (LLM) все чаще используются для многошаговых задач поиска информации, однако в сообществе информационного поиска (IR) отсутствует эмпирическое понимание того, как разворачиваются агентские поисковые сессии и как используется полученная информация. В данной статье представлен крупномасштабный анализ логов агентского поиска, основанный на 14,44 млн поисковых запросов (3,97 млн сессий), собранных из DeepResearchGym — открытого API для поиска, доступного внешним агентским клиентам. Мы сегментируем логи, присваиваем сессиям интенты на уровне всей сессии и помечаем шаги реформулировки запросов с помощью LLM-аннотирования, а также предлагаем показатель CTAR (Context-driven Term Adoption Rate) для количественной оценки того, можно ли проследить происхождение новых терминов в запросе из ранее полученных доказательств. Наш анализ выявляет характерные поведенческие паттерны. Во-первых, более 90% многоходовых сессий содержат не более десяти шагов, а 89% интервалов между шагами составляют менее одной минуты. Во-вторых, поведение варьируется в зависимости от интента. Сессии с поиском фактов демонстрируют высокую повторяемость, которая со временем возрастает, в то время как сессии, требующие рассуждений, поддерживают более широкое исследование. В-третьих, агенты повторно используют доказательства на разных шагах. В среднем 54% вновь вводимых терминов запроса появляются в накопленном контексте доказательств, причем вклад вносят и более ранние шаги, а не только самое последнее получение данных. Результаты позволяют предположить, что агентский поиск может выиграть от ранней остановки с учетом повторений, адаптивных под интент бюджетов на получение данных и явного отслеживания контекста между шагами. Мы планируем опубликовать анонимизированные логи для поддержки будущих исследований.
English
LLM-powered search agents are increasingly being used for multi-step information seeking tasks, yet the IR community lacks empirical understanding of how agentic search sessions unfold and how retrieved evidence is used. This paper presents a large-scale log analysis of agentic search based on 14.44M search requests (3.97M sessions) collected from DeepResearchGym, i.e. an open-source search API accessed by external agentic clients. We sessionize the logs, assign session-level intents and step-wise query-reformulation labels using LLM-based annotation, and propose Context-driven Term Adoption Rate (CTAR) to quantify whether newly introduced query terms are traceable to previously retrieved evidence. Our analyses reveal distinctive behavioral patterns. First, over 90% of multi-turn sessions contain at most ten steps, and 89% of inter-step intervals fall under one minute. Second, behavior varies by intent. Fact-seeking sessions exhibit high repetition that increases over time, while sessions requiring reasoning sustain broader exploration. Third, agents reuse evidence across steps. On average, 54% of newly introduced query terms appear in the accumulated evidence context, with contributions from earlier steps beyond the most recent retrieval. The findings suggest that agentic search may benefit from repetition-aware early stopping, intent-adaptive retrieval budgets, and explicit cross-step context tracking. We plan to release the anonymized logs to support future research.
PDF01January 28, 2026