Busca Agêntica na Prática: Intenções e Dinâmica de Trajetórias a partir de 14 Milhões+ de Solicitações Reais de Pesquisa

Resumo

Os agentes de busca baseados em LLM (Large Language Models) estão a ser cada vez mais utilizados para tarefas de busca de informação multi-etapa, contudo, a comunidade de RI (Recuperação de Informação) carece de uma compreensão empírica de como as sessões de busca agentivas se desenrolam e de como as evidências recuperadas são utilizadas. Este artigo apresenta uma análise de logs em larga escala da busca agentiva, baseada em 14,44 milhões de pedidos de busca (3,97 milhões de sessões) recolhidos do DeepResearchGym, ou seja, uma API de busca de código aberto acedida por clientes agentivos externos. Nós organizamos os logs em sessões, atribuímos intenções a nível de sessão e etiquetas de reformulação de consulta passo a passo usando anotação baseada em LLM, e propomos a Taxa de Adoção de Termos Orientada por Contexto (CTAR) para quantificar se os termos de consulta recentemente introduzidos são rastreáveis a evidências previamente recuperadas. As nossas análises revelam padrões comportamentais distintos. Primeiro, mais de 90% das sessões multi-turno contêm no máximo dez passos, e 89% dos intervalos entre passos são inferiores a um minuto. Segundo, o comportamento varia consoante a intenção. Sessões de busca factual exibem alta repetição que aumenta ao longo do tempo, enquanto sessões que requerem raciocínio mantêm uma exploração mais ampla. Terceiro, os agentes reutilizam evidências entre passos. Em média, 54% dos termos de consulta recentemente introduzidos aparecem no contexto de evidência acumulada, com contribuições de passos anteriores para além da recuperação mais recente. Os resultados sugerem que a busca agentiva pode beneficiar de uma paragem antecipada consciente da repetição, orçamentos de recuperação adaptáveis à intenção e um acompanhamento explícito do contexto entre passos. Planeamos disponibilizar os logs anonimizados para apoiar investigação futura.

English

LLM-powered search agents are increasingly being used for multi-step information seeking tasks, yet the IR community lacks empirical understanding of how agentic search sessions unfold and how retrieved evidence is used. This paper presents a large-scale log analysis of agentic search based on 14.44M search requests (3.97M sessions) collected from DeepResearchGym, i.e. an open-source search API accessed by external agentic clients. We sessionize the logs, assign session-level intents and step-wise query-reformulation labels using LLM-based annotation, and propose Context-driven Term Adoption Rate (CTAR) to quantify whether newly introduced query terms are traceable to previously retrieved evidence. Our analyses reveal distinctive behavioral patterns. First, over 90% of multi-turn sessions contain at most ten steps, and 89% of inter-step intervals fall under one minute. Second, behavior varies by intent. Fact-seeking sessions exhibit high repetition that increases over time, while sessions requiring reasoning sustain broader exploration. Third, agents reuse evidence across steps. On average, 54% of newly introduced query terms appear in the accumulated evidence context, with contributions from earlier steps beyond the most recent retrieval. The findings suggest that agentic search may benefit from repetition-aware early stopping, intent-adaptive retrieval budgets, and explicit cross-step context tracking. We plan to release the anonymized logs to support future research.