Hoe Effectief zijn Agentische Vaardigheden in de Praktijk: Het Benchmarken van LLM-vaardigheidsgebruik in Realistische Omgevingen

Samenvatting

Agentvaardigheden, herbruikbare, domeinspecifieke kennisartefacten, zijn een populair mechanisme geworden voor het uitbreiden van op LLM's gebaseerde agents. Toch blijft formele benchmarking van de prestaties bij het gebruik van vaardigheden schaars. Bestaande benchmarking-inspanningen richten zich op overdreven geïdealiseerde omstandigheden, waarbij LLM's direct handmatig gemaakte, nauw toegesneden, taakspecifieke vaardigheden voor elke taak krijgen aangeleverd. In veel realistische situaties moet de LLM-agent echter mogelijk zelf relevante vaardigheden zoeken en selecteren, en zelfs de best passende vaardigheden zijn mogelijk niet goed toegesneden op de taak. In dit artikel voeren we de eerste uitgebreide studie uit naar het nut van vaardigheden onder progressief uitdagendere realistische omstandigheden, waarbij agents vaardigheden moeten ophalen uit een grote collectie van 34k real-world vaardigheden en mogelijk geen toegang hebben tot handmatig geselecteerde vaardigheden. Onze bevindingen tonen aan dat de voordelen van vaardigheden fragiel zijn: prestatieverbeteringen nemen consistent af naarmate de omstandigheden realistischer worden, waarbij de slagingspercentages in de meest uitdagende scenario's naderen tot baseline-niveaus zonder vaardigheden. Om deze kloof te verkleinen, bestuderen we strategieën voor het verfijnen van vaardigheden, waaronder queryspecifieke en query-agnostische benaderingen. We tonen aan dat queryspecifieke verfijning substantieel verloren prestaties herstelt wanneer de initiële vaardigheden van redelijke relevantie en kwaliteit zijn. We demonstreren verder de generaliseerbaarheid van retriev

English

Agent skills, which are reusable, domain-specific knowledge artifacts, have become a popular mechanism for extending LLM-based agents, yet formally benchmarking skill usage performance remains scarce. Existing skill benchmarking efforts focus on overly idealized conditions, where LLMs are directly provided with hand-crafted, narrowly-tailored task-specific skills for each task, whereas in many realistic settings, the LLM agent may have to search for and select relevant skills on its own, and even the closest matching skills may not be well-tailored for the task. In this paper, we conduct the first comprehensive study of skill utility under progressively challenging realistic settings, where agents must retrieve skills from a large collection of 34k real-world skills and may not have access to any hand-curated skills. Our findings reveal that the benefits of skills are fragile: performance gains degrade consistently as settings become more realistic, with pass rates approaching no-skill baselines in the most challenging scenarios. To narrow this gap, we study skill refinement strategies, including query-specific and query-agnostic approaches, and we show that query-specific refinement substantially recovers lost performance when the initial skills are of reasonable relevance and quality. We further demonstrate the generality of retrieval and refinement on Terminal-Bench 2.0, where they improve the pass rate of Claude Opus 4.6 from 57.7% to 65.5%. Our results, consistent across multiple models, highlight both the promise and the current limitations of skills for LLM-based agents. Our code is available at https://github.com/UCSB-NLP-Chang/Skill-Usage.

Hoe Effectief zijn Agentische Vaardigheden in de Praktijk: Het Benchmarken van LLM-vaardigheidsgebruik in Realistische Omgevingen

How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

Samenvatting

Support