ChatPaper.aiChatPaper

野生環境におけるエージェンシック検索:1,400万件以上の実検索リクエストから見る意図と軌道のダイナミクス

Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests

January 24, 2026
著者: Jingjie Ning, João Coelho, Yibo Kong, Yunfan Long, Bruno Martins, João Magalhães, Jamie Callan, Chenyan Xiong
cs.AI

要旨

LLM駆動型検索エージェントは、多段階の情報探索タスクにますます利用されているが、IRコミュニティでは、エージェント型検索セッションがどのように展開され、検索されたエビデンスがどのように利用されるかについて、実証的な理解が不足している。本論文では、外部のエージェントクライアントからアクセスされるオープンソースの検索APIであるDeepResearchGymから収集された1,444万検索リクエスト(397万セッション)に基づく、エージェント型検索の大規模ログ分析を提示する。ログをセッション化し、LLMベースのアノテーションを用いてセッションレベルの意図と段階的なクエリ再構成ラベルを割り当て、新しく導入されたクエリ用語が過去に取得されたエビデンスに遡れるかどうかを定量化するための文脈駆動用語採用率(CTAR)を提案する。分析により、特徴的な行動パターンが明らかになった。第一に、90%以上の多ターンセッションは最大10ステップ以内で構成され、ステップ間間隔の89%は1分未満である。第二に、行動は意図によって異なる。事実探索セッションは時間とともに増加する高い反復性を示すのに対し、推論を要するセッションは持続的な広範な探索を行う。第三に、エージェントはステップ間でエビデンスを再利用する。平均して、新規導入クエリ用語の54%は蓄積されたエビデンス文脈に出現し、その貢献は直近の検索結果を超えて以前のステップにまで及ぶ。これらの知見は、エージェント型検索が、反復を考慮した早期打ち切り、意図に適応する検索バジェット、明示的なステップ間文脈追跡から恩恵を受ける可能性があることを示唆する。今後の研究を支援するため、匿名化されたログの公開を計画している。
English
LLM-powered search agents are increasingly being used for multi-step information seeking tasks, yet the IR community lacks empirical understanding of how agentic search sessions unfold and how retrieved evidence is used. This paper presents a large-scale log analysis of agentic search based on 14.44M search requests (3.97M sessions) collected from DeepResearchGym, i.e. an open-source search API accessed by external agentic clients. We sessionize the logs, assign session-level intents and step-wise query-reformulation labels using LLM-based annotation, and propose Context-driven Term Adoption Rate (CTAR) to quantify whether newly introduced query terms are traceable to previously retrieved evidence. Our analyses reveal distinctive behavioral patterns. First, over 90% of multi-turn sessions contain at most ten steps, and 89% of inter-step intervals fall under one minute. Second, behavior varies by intent. Fact-seeking sessions exhibit high repetition that increases over time, while sessions requiring reasoning sustain broader exploration. Third, agents reuse evidence across steps. On average, 54% of newly introduced query terms appear in the accumulated evidence context, with contributions from earlier steps beyond the most recent retrieval. The findings suggest that agentic search may benefit from repetition-aware early stopping, intent-adaptive retrieval budgets, and explicit cross-step context tracking. We plan to release the anonymized logs to support future research.
PDF01January 28, 2026