AgentSearchBench: Ein Benchmark für die KI-Agenten-Suche in realen Umgebungen

Zusammenfassung

Das rasante Wachstum von KI-Agenten-Ökosystemen verändert die Art und Weise, wie komplexe Aufgaben delegiert und ausgeführt werden, und stellt damit eine neue Herausforderung dar: die Identifizierung geeigneter Agenten für eine bestimmte Aufgabe. Im Gegensatz zu traditionellen Werkzeugen sind die Fähigkeiten von Agenten oft zusammengesetzt und ausführungsabhängig, was ihre Bewertung allein anhand textueller Beschreibungen schwierig macht. Bisherige Forschungsarbeiten und Benchmarks gehen jedoch typischerweise von klar definierten Funktionalitäten, kontrollierten Kandidatenpools oder nur ausführbaren Aufgabenanfragen aus, wodurch realistische Agentensuch-Szenarien unzureichend untersucht bleiben. Wir stellen AgentSearchBench vor, einen groß angelegten Benchmark für die Agentensuche in realen Umgebungen, der auf fast 10.000 realen Agenten verschiedener Anbieter basiert. Der Benchmark formalisiert die Agentensuche als Retrieval- und Re-Ranking-Probleme unter sowohl ausführbaren Aufgabenanfragen als auch hochleveligen Aufgabenbeschreibungen und bewertet die Relevanz anhand von ausführungsbasierten Leistungssignalen. Experimente zeigen eine beständige Diskrepanz zwischen semantischer Ähnlichkeit und der tatsächlichen Agentenleistung, was die Grenzen beschreibungsbasierter Retrieval- und Re-Ranking-Methoden aufzeigt. Wir demonstrieren weiter, dass leichtgewichtige Verhaltenssignale, einschließlich ausführungsbewusster Tests, die Ranking-Qualität erheblich verbessern können, was die Bedeutung der Einbeziehung von Ausführungssignalen in die Agentenentdeckung unterstreicht. Unser Code ist verfügbar unter https://github.com/Bingo-W/AgentSearchBench.

English

The rapid growth of AI agent ecosystems is transforming how complex tasks are delegated and executed, creating a new challenge of identifying suitable agents for a given task. Unlike traditional tools, agent capabilities are often compositional and execution-dependent, making them difficult to assess from textual descriptions alone. However, existing research and benchmarks typically assume well-specified functionalities, controlled candidate pools, or only executable task queries, leaving realistic agent search scenarios insufficiently studied. We introduce AgentSearchBench, a large-scale benchmark for agent search in the wild, built from nearly 10,000 real-world agents across multiple providers. The benchmark formalizes agent search as retrieval and reranking problems under both executable task queries and high-level task descriptions, and evaluates relevance using execution-grounded performance signals. Experiments reveal a consistent gap between semantic similarity and actual agent performance, exposing the limitations of description-based retrieval and reranking methods. We further show that lightweight behavioral signals, including execution-aware probing, can substantially improve ranking quality, highlighting the importance of incorporating execution signals into agent discovery. Our code is available at https://github.com/Bingo-W/AgentSearchBench.

AgentSearchBench: Ein Benchmark für die KI-Agenten-Suche in realen Umgebungen

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

Zusammenfassung

Support