AgentSearchBench : Un Benchmark pour la Recherche d'Agents IA en Conditions Réelles

Résumé

La croissance rapide des écosystèmes d'agents IA transforme la manière dont les tâches complexes sont déléguées et exécutées, créant un nouveau défi : identifier les agents adaptés à une tâche donnée. Contrairement aux outils traditionnels, les capacités des agents sont souvent compositionnelles et dépendantes de l'exécution, ce qui les rend difficiles à évaluer à partir de descriptions textuelles seules. Cependant, les recherches et benchmarks existants supposent généralement des fonctionnalités bien spécifiées, des pools de candidats contrôlés, ou des requêtes de tâches uniquement exécutables, laissant les scénarios réalistes de recherche d'agents insuffisamment étudiés. Nous présentons AgentSearchBench, un benchmark à grande échelle pour la recherche d'agents en conditions réelles, construit à partir de près de 10 000 agents réels issus de multiples fournisseurs. Le benchmark formalise la recherche d'agents comme des problèmes de retrieval et de reranking, à la fois pour des requêtes de tâches exécutables et des descriptions de tâches de haut niveau, et évalue la pertinence en utilisant des signaux de performance ancrés dans l'exécution. Les expériences révèlent un écart constant entre la similarité sémantique et les performances réelles des agents, exposant les limites des méthodes de retrieval et de reranking basées sur les descriptions. Nous montrons en outre que des signaux comportementaux légers, incluant du probing conscient de l'exécution, peuvent substantiellement améliorer la qualité du classement, soulignant l'importance d'incorporer des signaux d'exécution dans la découverte d'agents. Notre code est disponible à l'adresse https://github.com/Bingo-W/AgentSearchBench.

English

The rapid growth of AI agent ecosystems is transforming how complex tasks are delegated and executed, creating a new challenge of identifying suitable agents for a given task. Unlike traditional tools, agent capabilities are often compositional and execution-dependent, making them difficult to assess from textual descriptions alone. However, existing research and benchmarks typically assume well-specified functionalities, controlled candidate pools, or only executable task queries, leaving realistic agent search scenarios insufficiently studied. We introduce AgentSearchBench, a large-scale benchmark for agent search in the wild, built from nearly 10,000 real-world agents across multiple providers. The benchmark formalizes agent search as retrieval and reranking problems under both executable task queries and high-level task descriptions, and evaluates relevance using execution-grounded performance signals. Experiments reveal a consistent gap between semantic similarity and actual agent performance, exposing the limitations of description-based retrieval and reranking methods. We further show that lightweight behavioral signals, including execution-aware probing, can substantially improve ranking quality, highlighting the importance of incorporating execution signals into agent discovery. Our code is available at https://github.com/Bingo-W/AgentSearchBench.

AgentSearchBench : Un Benchmark pour la Recherche d'Agents IA en Conditions Réelles

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

Résumé

Support