AgentSearchBench: 실제 환경에서의 AI 에이전트 검색을 위한 벤치마크
AgentSearchBench: A Benchmark for AI Agent Search in the Wild
April 24, 2026
저자: Bin Wu, Arastun Mammadli, Xiaoyu Zhang, Emine Yilmaz
cs.AI
초록
AI 에이전트 생태계의 급속한 성장은 복잡한 작업의 위임 및 실행 방식을 변화시키면서, 주어진 작업에 적합한 에이전트를 식별해야 하는 새로운 과제를 만들어내고 있습니다. 기존 도구와 달리 에이전트의 능력은 종종 구성적이며 실행에 의존적이어서 텍스트 설명만으로는 평가하기 어렵습니다. 그러나 기존 연구와 벤치마크는 일반적으로 명확하게 정의된 기능, 통제된 후보 풀, 또는 실행 가능한 작업 쿼리만을 가정하여 현실적인 에이전트 검색 시나리오가 충분히 연구되지 못했습니다. 본 연구에서는 여러 제공업체의 실제 에이전트 약 10,000개를 바탕으로 구축된 대규모 실전 에이전트 검색 벤치마크인 AgentSearchBench를 소개합니다. 이 벤치마크는 실행 가능한 작업 쿼리와 높은 수준의 작업 설명 하에서 에이전트 검색을 검색 및 재랭킹 문제로 정형화하고, 실행에 기반한 성과 신호를 사용하여 관련성을 평가합니다. 실험 결과, 의미론적 유사성과 실제 에이전트 성능 간에 지속적인 격차가 존재함이 드러나 설명 기반 검색 및 재랭킹 방법의 한계를 보여줍니다. 또한 실행 인지 프로빙을 포함한 경량의 행동 신호가 랭킹 품질을 크게 향상시킬 수 있음을 보여주며, 에이전트 발견 과정에 실행 신호를 통합하는 것의 중요성을 강조합니다. 코드는 https://github.com/Bingo-W/AgentSearchBench 에서 이용할 수 있습니다.
English
The rapid growth of AI agent ecosystems is transforming how complex tasks are delegated and executed, creating a new challenge of identifying suitable agents for a given task. Unlike traditional tools, agent capabilities are often compositional and execution-dependent, making them difficult to assess from textual descriptions alone. However, existing research and benchmarks typically assume well-specified functionalities, controlled candidate pools, or only executable task queries, leaving realistic agent search scenarios insufficiently studied. We introduce AgentSearchBench, a large-scale benchmark for agent search in the wild, built from nearly 10,000 real-world agents across multiple providers. The benchmark formalizes agent search as retrieval and reranking problems under both executable task queries and high-level task descriptions, and evaluates relevance using execution-grounded performance signals. Experiments reveal a consistent gap between semantic similarity and actual agent performance, exposing the limitations of description-based retrieval and reranking methods. We further show that lightweight behavioral signals, including execution-aware probing, can substantially improve ranking quality, highlighting the importance of incorporating execution signals into agent discovery. Our code is available at https://github.com/Bingo-W/AgentSearchBench.