AgentSearchBench: Een benchmark voor AI-agentzoekopdrachten in de praktijk

Samenvatting

De snelle groei van AI-agent-ecosystemen transformeert hoe complexe taken worden gedelegeerd en uitgevoerd, wat een nieuwe uitdaging creëert: het identificeren van geschikte agenten voor een bepaalde taak. In tegenstelling tot traditionele tools zijn de capaciteiten van agenten vaak compositioneel en uitvoeringsafhankelijk, waardoor ze moeilijk zijn in te schatten op basis van alleen tekstuele beschrijvingen. Echter, bestaand onderzoek en benchmarks veronderstellen doorgaans goed-gespecificeerde functionaliteiten, gecontroleerde kandidaat-pools of alleen uitvoerbare taakquery's, waardoor realistische scenario's voor agentenzoekopdrachten onvoldoende worden bestudeerd. Wij introduceren AgentSearchBench, een grootschalige benchmark voor het zoeken naar agenten in de praktijk, opgebouwd uit bijna 10.000 real-world agenten van meerdere aanbieders. De benchmark formaliseert het zoeken naar agenten als retrieval- en reranking-problemen onder zowel uitvoerbare taakquery's als hoog-niveau taakbeschrijvingen, en evalueert relevantie met behulp van op uitvoering gegronde prestatiesignalen. Experimenten tonen een consistente kloof aan tussen semantische gelijkenis en werkelijke agentprestaties, wat de beperkingen blootlegt van op beschrijving gebaseerde retrieval- en reranking-methoden. We tonen verder aan dat lichtgewicht gedragssignalen, inclusief execution-aware probing, de rankingkwaliteit aanzienlijk kunnen verbeteren, wat het belang benadrukt van het incorporeren van uitvoeringssignalen in agentdiscovery. Onze code is beschikbaar op https://github.com/Bingo-W/AgentSearchBench.

English

The rapid growth of AI agent ecosystems is transforming how complex tasks are delegated and executed, creating a new challenge of identifying suitable agents for a given task. Unlike traditional tools, agent capabilities are often compositional and execution-dependent, making them difficult to assess from textual descriptions alone. However, existing research and benchmarks typically assume well-specified functionalities, controlled candidate pools, or only executable task queries, leaving realistic agent search scenarios insufficiently studied. We introduce AgentSearchBench, a large-scale benchmark for agent search in the wild, built from nearly 10,000 real-world agents across multiple providers. The benchmark formalizes agent search as retrieval and reranking problems under both executable task queries and high-level task descriptions, and evaluates relevance using execution-grounded performance signals. Experiments reveal a consistent gap between semantic similarity and actual agent performance, exposing the limitations of description-based retrieval and reranking methods. We further show that lightweight behavioral signals, including execution-aware probing, can substantially improve ranking quality, highlighting the importance of incorporating execution signals into agent discovery. Our code is available at https://github.com/Bingo-W/AgentSearchBench.

AgentSearchBench: Een benchmark voor AI-agentzoekopdrachten in de praktijk

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

Samenvatting

Support