실제 검색 환경에서의 에이전시 검색: 1,400만 건 이상의 실제 검색 요청을 바탕으로 분석한 의도와 탐색 경로 동역학
Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests
January 24, 2026
저자: Jingjie Ning, João Coelho, Yibo Kong, Yunfan Long, Bruno Martins, João Magalhães, Jamie Callan, Chenyan Xiong
cs.AI
초록
LLM 기반 검색 에이전트가 다단계 정보 탐색 작업에 점점 더 많이 활용되고 있지만, IR 커뮤니티는 에이전트 검색 세션이 어떻게 전개되고 검색된 증거가 어떻게 사용되는지에 대한 실증적 이해가 부족합니다. 본 논문은 외부 에이전트 클라이언트가 접근하는 오픈소스 검색 API인 DeepResearchGym에서 수집된 1,444만 건의 검색 요청(397만 개의 세션)을 기반으로 에이전트 검색에 대한 대규모 로그 분석을 제시합니다. 우리는 로그를 세션화하고, LLM 기반 주석을 사용하여 세션 수준 의도와 단계별 쿼리 재구성 레이블을 할당하며, 새로 도입된 쿼리 용어가 이전에 검색된 증거로 추적 가능한지 정량화하기 위한 Context-driven Term Adoption Rate(CTAR)를 제안합니다. 우리의 분석은 뚜렷한 행동 패턴을 보여줍니다. 첫째, 다중 턴 세션의 90% 이상이 최대 10단계를 포함하며, 단계 간 간격의 89%가 1분 미만입니다. 둘째, 행동은 의도에 따라 다릅니다. 사실 탐색 세션은 시간이 지남에 따라 증가하는 높은 반복성을 보이는 반면, 추론이 필요한 세션은 더 광범위한 탐색을 유지합니다. 셋째, 에이전트는 단계 간에 증거를 재사용합니다. 평균적으로 새로 도입된 쿼리 용어의 54%가 누적된 증거 컨텍스트에 나타나며, 가장 최근 검색 결과를 넘어 이전 단계들의 기여가 있습니다. 이러한 결과는 에이전트 검색이 반복 인식 조기 중단, 의도 적응형 검색 예산, 명시적인 단계 간 컨텍스트 추적을 통해 이점을 얻을 수 있음을 시사합니다. 향후 연구를 지원하기 위해 익명화된 로그를 공개할 계획입니다.
English
LLM-powered search agents are increasingly being used for multi-step information seeking tasks, yet the IR community lacks empirical understanding of how agentic search sessions unfold and how retrieved evidence is used. This paper presents a large-scale log analysis of agentic search based on 14.44M search requests (3.97M sessions) collected from DeepResearchGym, i.e. an open-source search API accessed by external agentic clients. We sessionize the logs, assign session-level intents and step-wise query-reformulation labels using LLM-based annotation, and propose Context-driven Term Adoption Rate (CTAR) to quantify whether newly introduced query terms are traceable to previously retrieved evidence. Our analyses reveal distinctive behavioral patterns. First, over 90% of multi-turn sessions contain at most ten steps, and 89% of inter-step intervals fall under one minute. Second, behavior varies by intent. Fact-seeking sessions exhibit high repetition that increases over time, while sessions requiring reasoning sustain broader exploration. Third, agents reuse evidence across steps. On average, 54% of newly introduced query terms appear in the accumulated evidence context, with contributions from earlier steps beyond the most recent retrieval. The findings suggest that agentic search may benefit from repetition-aware early stopping, intent-adaptive retrieval budgets, and explicit cross-step context tracking. We plan to release the anonymized logs to support future research.