AgentSearchBench: Um Benchmark para Busca de Agentes de IA em Ambiente Real
AgentSearchBench: A Benchmark for AI Agent Search in the Wild
April 24, 2026
Autores: Bin Wu, Arastun Mammadli, Xiaoyu Zhang, Emine Yilmaz
cs.AI
Resumo
O rápido crescimento dos ecossistemas de agentes de IA está transformando a forma como tarefas complexas são delegadas e executadas, criando um novo desafio: identificar agentes adequados para uma determinada tarefa. Diferente de ferramentas tradicionais, as capacidades dos agentes são frequentemente composicionais e dependentes da execução, tornando-as difíceis de avaliar apenas a partir de descrições textuais. No entanto, pesquisas e benchmarks existentes geralmente assumem funcionalidades bem especificadas, pools de candidatos controlados ou apenas consultas de tarefas executáveis, deixando cenários realistas de busca de agentes insuficientemente estudados. Apresentamos o AgentSearchBench, um benchmark em larga escala para busca de agentes em condições reais, construído a partir de quase 10.000 agentes do mundo real de vários provedores. O benchmark formaliza a busca de agentes como problemas de recuperação e rerranqueamento sob consultas de tarefas executáveis e descrições de tarefas de alto nível, e avalia a relevância usando sinais de desempenho fundamentados na execução. Experimentos revelam uma lacuna consistente entre a similaridade semântica e o desempenho real do agente, expondo as limitações dos métodos de recuperação e rerranqueamento baseados em descrição. Mostramos ainda que sinais comportamentais leves, incluindo sondagem consciente da execução, podem melhorar substancialmente a qualidade do ranqueamento, destacando a importância de incorporar sinais de execução na descoberta de agentes. Nosso código está disponível em https://github.com/Bingo-W/AgentSearchBench.
English
The rapid growth of AI agent ecosystems is transforming how complex tasks are delegated and executed, creating a new challenge of identifying suitable agents for a given task. Unlike traditional tools, agent capabilities are often compositional and execution-dependent, making them difficult to assess from textual descriptions alone. However, existing research and benchmarks typically assume well-specified functionalities, controlled candidate pools, or only executable task queries, leaving realistic agent search scenarios insufficiently studied. We introduce AgentSearchBench, a large-scale benchmark for agent search in the wild, built from nearly 10,000 real-world agents across multiple providers. The benchmark formalizes agent search as retrieval and reranking problems under both executable task queries and high-level task descriptions, and evaluates relevance using execution-grounded performance signals. Experiments reveal a consistent gap between semantic similarity and actual agent performance, exposing the limitations of description-based retrieval and reranking methods. We further show that lightweight behavioral signals, including execution-aware probing, can substantially improve ranking quality, highlighting the importance of incorporating execution signals into agent discovery. Our code is available at https://github.com/Bingo-W/AgentSearchBench.