AgentSearchBench: Бенчмарк для поиска ИИ-агентов в реальных условиях

Аннотация

Быстрое развитие экосистем ИИ-агентов трансформирует способы делегирования и выполнения сложных задач, создавая новую проблему — поиск подходящих агентов для конкретной задачи. В отличие от традиционных инструментов, возможности агентов часто являются композиционными и зависят от исполнения, что затрудняет их оценку только по текстовым описаниям. Однако существующие исследования и бенчмарки обычно предполагают чётко определённые функциональности, контролируемые пулы кандидатов или только исполняемые запросы задач, оставляя реалистичные сценарии поиска агентов недостаточно изученными. Мы представляем AgentSearchBench — крупномасштабный бенчмарк для поиска агентов в реальных условиях, построенный на основе почти 10 000 реальных агентов от множества провайдеров. Бенчмарк формализует поиск агентов как задачи поиска и повторного ранжирования как для исполняемых запросов задач, так и для высокоуровневых описаний задач, и оценивает релевантность с использованием показателей производительности, основанных на исполнении. Эксперименты выявляют устойчивый разрыв между семантическим сходством и фактической производительностью агентов, демонстрируя ограничения методов поиска и переранжирования, основанных на описаниях. Мы также показываем, что лёгкие поведенческие сигналы, включая зондирование с учётом исполнения, могут существенно улучшить качество ранжирования, подчёркивая важность интеграции сигналов исполнения в процесс обнаружения агентов. Наш код доступен по адресу https://github.com/Bingo-W/AgentSearchBench.

English

The rapid growth of AI agent ecosystems is transforming how complex tasks are delegated and executed, creating a new challenge of identifying suitable agents for a given task. Unlike traditional tools, agent capabilities are often compositional and execution-dependent, making them difficult to assess from textual descriptions alone. However, existing research and benchmarks typically assume well-specified functionalities, controlled candidate pools, or only executable task queries, leaving realistic agent search scenarios insufficiently studied. We introduce AgentSearchBench, a large-scale benchmark for agent search in the wild, built from nearly 10,000 real-world agents across multiple providers. The benchmark formalizes agent search as retrieval and reranking problems under both executable task queries and high-level task descriptions, and evaluates relevance using execution-grounded performance signals. Experiments reveal a consistent gap between semantic similarity and actual agent performance, exposing the limitations of description-based retrieval and reranking methods. We further show that lightweight behavioral signals, including execution-aware probing, can substantially improve ranking quality, highlighting the importance of incorporating execution signals into agent discovery. Our code is available at https://github.com/Bingo-W/AgentSearchBench.

AgentSearchBench: Бенчмарк для поиска ИИ-агентов в реальных условиях

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

Аннотация

Support