Quanto Funzionano le Abilità Agenti in Contesti Reali: Benchmarking dell'Utilizzo delle Competenze dei LLM in Ambienti Realistici

Abstract

Le abilità di agente, che sono artefatti di conoscenza riutilizzabili e specifici per dominio, sono diventati un meccanismo popolare per estendere gli agenti basati su LLM, ma la valutazione formale delle prestazioni di utilizzo delle abilità rimane scarsa. Gli attuali sforzi di benchmarking si concentrano su condizioni eccessivamente idealizzate, in cui gli LLM ricevono direttamente abilità specifiche per ogni compito, create manualmente e strettamente adattate, mentre in molti contesti realistici, l'agente LLM potrebbe dover cercare e selezionare autonomamente le abilità rilevanti, e persino le abilità più vicine potrebbero non essere ben adattate al compito. In questo articolo, conduciamo il primo studio completo sull'utilità delle abilità in contesti realistici progressivamente più impegnativi, dove gli agenti devono recuperare abilità da una vasta collezione di 34k abilità del mondo reale e potrebbero non avere accesso ad alcuna abilità curata manualmente. Le nostre scoperte rivelano che i benefici delle abilità sono fragili: i guadagni di prestazione si degradano costantemente man mano che i contesti diventano più realistici, con tassi di successo che si avvicinano ai baseline senza abilità negli scenari più difficili. Per colmare questo divario, studiamo strategie di raffinamento delle abilità, inclusi approcci specifici per query e indipendenti dalla query, e mostriamo che il raffinamento specifico per query recupera sostanzialmente le prestazioni perdute quando le abilità iniziali hanno una rilevanza e una qualità ragionevoli. Dimostriamo inoltre la generalità del recupero e del raffinamento su Terminal-Bench 2.0, dove migliorano il tasso di successo di Claude Opus 4.6 dal 57.7% al 65.5%. I nostri risultati, coerenti su più modelli, evidenziano sia le promesse che le attuali limitazioni delle abilità per gli agenti basati su LLM. Il nostro codice è disponibile all'indirizzo https://github.com/UCSB-NLP-Chang/Skill-Usage.

English

Agent skills, which are reusable, domain-specific knowledge artifacts, have become a popular mechanism for extending LLM-based agents, yet formally benchmarking skill usage performance remains scarce. Existing skill benchmarking efforts focus on overly idealized conditions, where LLMs are directly provided with hand-crafted, narrowly-tailored task-specific skills for each task, whereas in many realistic settings, the LLM agent may have to search for and select relevant skills on its own, and even the closest matching skills may not be well-tailored for the task. In this paper, we conduct the first comprehensive study of skill utility under progressively challenging realistic settings, where agents must retrieve skills from a large collection of 34k real-world skills and may not have access to any hand-curated skills. Our findings reveal that the benefits of skills are fragile: performance gains degrade consistently as settings become more realistic, with pass rates approaching no-skill baselines in the most challenging scenarios. To narrow this gap, we study skill refinement strategies, including query-specific and query-agnostic approaches, and we show that query-specific refinement substantially recovers lost performance when the initial skills are of reasonable relevance and quality. We further demonstrate the generality of retrieval and refinement on Terminal-Bench 2.0, where they improve the pass rate of Claude Opus 4.6 from 57.7% to 65.5%. Our results, consistent across multiple models, highlight both the promise and the current limitations of skills for LLM-based agents. Our code is available at https://github.com/UCSB-NLP-Chang/Skill-Usage.

Quanto Funzionano le Abilità Agenti in Contesti Reali: Benchmarking dell'Utilizzo delle Competenze dei LLM in Ambienti Realistici

How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

Abstract

Support