AgentSearchBench: 実環境におけるAIエージェント検索のベンチマーク
AgentSearchBench: A Benchmark for AI Agent Search in the Wild
April 24, 2026
著者: Bin Wu, Arastun Mammadli, Xiaoyu Zhang, Emine Yilmaz
cs.AI
要旨
AIエージェントエコシステムの急速な成長は、複雑なタスクの委譲と実行方法を変革し、特定のタスクに適したエージェントを特定する新たな課題を生み出している。従来のツールとは異なり、エージェントの能力は多くの場合、合成的かつ実行依存性を持つため、テキスト記述のみからの評価が困難である。しかし、既存の研究やベンチマークでは、機能が明確に定義されていること、候補プールが制御されていること、または実行可能なタスククエリのみを想定する場合が多く、現実的なエージェント検索シナリオは十分に研究されていない。本論文では、複数プロバイダーにわたる実世界のエージェント約10,000件から構築した、大規模なエージェント検索ベンチマーク「AgentSearchBench」を提案する。本ベンチマークは、エージェント検索を、実行可能なタスククエリと高レベルなタスク記述の両方における検索および再ランキング問題として形式化し、実行に基づく性能信号を用いて関連性を評価する。実験により、意味的類似性と実際のエージェント性能との間に一貫した隔たりが存在することが明らかとなり、記述ベースの検索および再ランキング手法の限界が露呈する。さらに、軽量な行動信号(実行を意識したプロービングを含む)がランキング品質を大幅に改善できることを示し、エージェント発見への実行信号の組み込みの重要性を浮き彫りにする。コードはhttps://github.com/Bingo-W/AgentSearchBenchで公開されている。
English
The rapid growth of AI agent ecosystems is transforming how complex tasks are delegated and executed, creating a new challenge of identifying suitable agents for a given task. Unlike traditional tools, agent capabilities are often compositional and execution-dependent, making them difficult to assess from textual descriptions alone. However, existing research and benchmarks typically assume well-specified functionalities, controlled candidate pools, or only executable task queries, leaving realistic agent search scenarios insufficiently studied. We introduce AgentSearchBench, a large-scale benchmark for agent search in the wild, built from nearly 10,000 real-world agents across multiple providers. The benchmark formalizes agent search as retrieval and reranking problems under both executable task queries and high-level task descriptions, and evaluates relevance using execution-grounded performance signals. Experiments reveal a consistent gap between semantic similarity and actual agent performance, exposing the limitations of description-based retrieval and reranking methods. We further show that lightweight behavioral signals, including execution-aware probing, can substantially improve ranking quality, highlighting the importance of incorporating execution signals into agent discovery. Our code is available at https://github.com/Bingo-W/AgentSearchBench.