AgentSearchBench: Un Punto de Referencia para la Búsqueda de Agentes de IA en Entornos Reales

Resumen

El rápido crecimiento de los ecosistemas de agentes de IA está transformando la forma en que se delegan y ejecutan tareas complejas, creando un nuevo desafío: identificar agentes adecuados para una tarea determinada. A diferencia de las herramientas tradicionales, las capacidades de los agentes suelen ser composicionales y dependientes de la ejecución, lo que dificulta su evaluación solo a partir de descripciones textuales. Sin embargo, la investigación y los puntos de referencia existentes suelen asumir funcionalidades bien especificadas, grupos de candidatos controlados o únicamente consultas de tareas ejecutables, dejando los escenarios realistas de búsqueda de agentes insuficientemente estudiados. Presentamos AgentSearchBench, un punto de referencia a gran escala para la búsqueda de agentes en entornos reales, construido a partir de casi 10.000 agentes del mundo real de múltiples proveedores. El benchmark formaliza la búsqueda de agentes como problemas de recuperación y reordenamiento bajo consultas de tareas ejecutables y descripciones de tareas de alto nivel, y evalúa la relevancia utilizando señales de rendimiento basadas en la ejecución. Los experimentos revelan una brecha constante entre la similitud semántica y el rendimiento real del agente, exponiendo las limitaciones de los métodos de recuperación y reordenamiento basados en descripciones. Además, demostramos que las señales de comportamiento ligeras, incluyendo el sondeo consciente de la ejecución, pueden mejorar sustancialmente la calidad del ranking, destacando la importancia de incorporar señales de ejecución en el descubrimiento de agentes. Nuestro código está disponible en https://github.com/Bingo-W/AgentSearchBench.

English

The rapid growth of AI agent ecosystems is transforming how complex tasks are delegated and executed, creating a new challenge of identifying suitable agents for a given task. Unlike traditional tools, agent capabilities are often compositional and execution-dependent, making them difficult to assess from textual descriptions alone. However, existing research and benchmarks typically assume well-specified functionalities, controlled candidate pools, or only executable task queries, leaving realistic agent search scenarios insufficiently studied. We introduce AgentSearchBench, a large-scale benchmark for agent search in the wild, built from nearly 10,000 real-world agents across multiple providers. The benchmark formalizes agent search as retrieval and reranking problems under both executable task queries and high-level task descriptions, and evaluates relevance using execution-grounded performance signals. Experiments reveal a consistent gap between semantic similarity and actual agent performance, exposing the limitations of description-based retrieval and reranking methods. We further show that lightweight behavioral signals, including execution-aware probing, can substantially improve ranking quality, highlighting the importance of incorporating execution signals into agent discovery. Our code is available at https://github.com/Bingo-W/AgentSearchBench.

AgentSearchBench: Un Punto de Referencia para la Búsqueda de Agentes de IA en Entornos Reales

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

Resumen

Support