Wie gut funktionieren agentische Fähigkeiten in der Praxis: Benchmarking der Fähigkeitsnutzung von LLMs in realistischen Umgebungen

Zusammenfassung

Agent Skills, wiederverwendbare, domänenspezifische Wissensartefakte, sind zu einem populären Mechanismus für die Erweiterung von LLM-basierten Agenten geworden, doch formelle Benchmarks zur Bewertung der Skill-Nutzungsleistung bleiben rar. Bestehende Benchmarking-Bemühungen konzentrieren sich auf übermäßig idealisierte Bedingungen, bei denen LLMs direkt handgefertigte, eng zugeschnittene aufgabenspezifische Skills für jede Aufgabe erhalten, während in vielen realistischen Szenarien der LLM-Agent relevante Skills selbst suchen und auswählen muss und selbst die am besten passenden Skills möglicherweise nicht optimal für die Aufgabe geeignet sind. In dieser Arbeit führen wir die erste umfassende Studie zur Skill-Nützlichkeit unter progressiv anspruchsvolleren realistischen Bedingungen durch, bei denen Agenten Skills aus einer großen Sammlung von 34.000 realen Skills abrufen müssen und möglicherweise keinen Zugang zu handkuratierten Skills haben. Unsere Ergebnisse zeigen, dass die Vorteile von Skills fragil sind: Die Leistungssteigerungen nehmen kontinuierlich ab, wenn die Bedingungen realistischer werden, wobei die Erfolgsquoten in den anspruchsvollsten Szenarien nahe an die Baseline ohne Skills heranreichen. Um diese Lücke zu schließen, untersuchen wir Strategien zur Skill-Verfeinerung, einschließlich abfragespezifischer und abfrageunabhängiger Ansätze, und zeigen, dass abfragespezifische Verfeinerung verlorene Leistung substanziell zurückgewinnen kann, wenn die initialen Skills eine angemessene Relevanz und Qualität aufweisen. Wir demonstrieren weiterhin die Allgemeingültigkeit von Retrieval und Verfeinerung auf Terminal-Bench 2.0, wo sie die Erfolgsrate von Claude Opus 4.6 von 57,7 % auf 65,5 % steigern. Unsere konsistenten Ergebnisse über mehrere Modelle hinweg unterstreichen sowohl das Potenzial als auch die aktuellen Grenzen von Skills für LLM-basierte Agenten. Unser Code ist verfügbar unter https://github.com/UCSB-NLP-Chang/Skill-Usage.

English

Agent skills, which are reusable, domain-specific knowledge artifacts, have become a popular mechanism for extending LLM-based agents, yet formally benchmarking skill usage performance remains scarce. Existing skill benchmarking efforts focus on overly idealized conditions, where LLMs are directly provided with hand-crafted, narrowly-tailored task-specific skills for each task, whereas in many realistic settings, the LLM agent may have to search for and select relevant skills on its own, and even the closest matching skills may not be well-tailored for the task. In this paper, we conduct the first comprehensive study of skill utility under progressively challenging realistic settings, where agents must retrieve skills from a large collection of 34k real-world skills and may not have access to any hand-curated skills. Our findings reveal that the benefits of skills are fragile: performance gains degrade consistently as settings become more realistic, with pass rates approaching no-skill baselines in the most challenging scenarios. To narrow this gap, we study skill refinement strategies, including query-specific and query-agnostic approaches, and we show that query-specific refinement substantially recovers lost performance when the initial skills are of reasonable relevance and quality. We further demonstrate the generality of retrieval and refinement on Terminal-Bench 2.0, where they improve the pass rate of Claude Opus 4.6 from 57.7% to 65.5%. Our results, consistent across multiple models, highlight both the promise and the current limitations of skills for LLM-based agents. Our code is available at https://github.com/UCSB-NLP-Chang/Skill-Usage.

Wie gut funktionieren agentische Fähigkeiten in der Praxis: Benchmarking der Fähigkeitsnutzung von LLMs in realistischen Umgebungen

How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

Zusammenfassung

Support