DeepSearchQA: Preenchendo a Lacuna de Abrangência para Agentes de Pesquisa Profunda

Resumo

Apresentamos o DeepSearchQA, um benchmark de 900 instruções para avaliação de agentes em tarefas complexas e multiestapas de busca de informação em 17 áreas distintas. Diferentemente de benchmarks tradicionais focados na recuperação de respostas únicas ou na factualidade de amplo espectro, o DeepSearchQA apresenta um conjunto de tarefas desafiadoras, elaboradas manualmente para avaliar a capacidade de um agente executar planos de busca complexos e gerar listas de respostas exaustivas. Essa mudança de design testa explicitamente três capacidades críticas e subavaliadas: 1) a colação sistemática de informações fragmentadas de fontes diversas, 2) a desduplicação e resolução de entidades para garantir precisão, e 3) a capacidade de raciocinar sobre critérios de parada em um espaço de busca aberto. Cada tarefa é estruturada como uma cadeia causal, na qual a descoberta de informação em uma etapa depende da conclusão bem-sucedida da anterior, exigindo planejamento de longo horizonte e retenção de contexto. Todas as tarefas estão ancoradas na web aberta, com conjuntos de respostas objetivamente verificáveis. Nossa avaliação abrangente de arquiteturas de agentes state-of-the-art revela limitações significativas de desempenho: mesmo os modelos mais avançados lutam para equilibrar alta recuperação com precisão. Observamos modos de falha distintos, que vão desde paradas prematuras (sub-recuperação) até comportamentos de precaução, nos quais os agentes lançam uma rede excessivamente ampla de respostas com baixa confiança para aumentar artificialmente a recuperação. Esses achados destacam uma margem crítica de melhoria nos designs atuais de agentes e posicionam o DeepSearchQA como uma ferramenta de diagnóstico essencial para impulsionar pesquisas futuras rumo a capacidades de pesquisa profunda mais robustas.

English

We introduce DeepSearchQA, a 900-prompt benchmark for evaluating agents on difficult multi-step information-seeking tasks across 17 different fields. Unlike traditional benchmarks that target single answer retrieval or broad-spectrum factuality, DeepSearchQA features a dataset of challenging, handcrafted tasks designed to evaluate an agent's ability to execute complex search plans to generate exhaustive answer lists. This shift in design explicitly tests three critical, yet under-evaluated capabilities: 1) systematic collation of fragmented information from disparate sources, 2) de-duplication and entity resolution to ensure precision, and 3) the ability to reason about stopping criteria within an open-ended search space. Each task is structured as a causal chain, where discovering information for one step is dependent on the successful completion of the previous one, stressing long-horizon planning and context retention. All tasks are grounded in the open web with objectively verifiable answer sets. Our comprehensive evaluation of state-of-the-art agent architectures reveals significant performance limitations: even the most advanced models struggle to balance high recall with precision. We observe distinct failure modes ranging from premature stopping (under-retrieval) to hedging behaviors, where agents cast an overly wide net of low-confidence answers to artificially boost recall. These findings highlight critical headroom in current agent designs and position DeepSearchQA as an essential diagnostic tool for driving future research toward more robust, deep-research capabilities.

DeepSearchQA: Preenchendo a Lacuna de Abrangência para Agentes de Pesquisa Profunda

DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

Resumo

Support