**Dans quelle mesure les compétences agentielles fonctionnent-elles en conditions réelles : Évaluation comparative de l'utilisation des compétences des LLM dans des contextes réalistes**

Résumé

Les compétences d'agent, qui sont des artefacts de connaissances réutilisables et spécifiques à un domaine, sont devenues un mécanisme populaire pour étendre les agents basés sur LLM, mais l'évaluation formelle des performances d'utilisation des compétences reste rare. Les efforts d'évaluation existants se concentrent sur des conditions excessivement idéalisées, où les LLM reçoivent directement des compétences spécifiques à la tâche, étroitement adaptées et créées manuellement pour chaque tâche, alors que dans de nombreux contextes réalistes, l'agent LLM peut devoir rechercher et sélectionner lui-même les compétences pertinentes, et même les compétences les plus proches peuvent ne pas être bien adaptées à la tâche. Dans cet article, nous menons la première étude complète de l'utilité des compétences dans des contextes réalistes progressivement difficiles, où les agents doivent récupérer des compétences parmi une large collection de 34 000 compétences réelles et peuvent ne pas avoir accès à des compétences présélectionnées manuellement. Nos résultats révèlent que les avantages des compétences sont fragiles : les gains de performance se dégradent systématiquement à mesure que les contextes deviennent plus réalistes, avec des taux de réussite approchant les lignes de base sans compétence dans les scénarios les plus difficiles. Pour réduire cet écart, nous étudions des stratégies de raffinement des compétences, incluant des approches spécifiques et non spécifiques à la requête, et nous montrons que le raffinement spécifique à la requête permet de récupérer substantiellement la performance perdue lorsque les compétences initiales présentent une pertinence et une qualité raisonnables. Nous démontrons en outre la généralité de la récupération et du raffinement sur Terminal-Bench 2.0, où ils améliorent le taux de réussite de Claude Opus 4.6 de 57,7 % à 65,5 %. Nos résultats, cohérents sur plusieurs modèles, soulignent à la fois la promesse et les limitations actuelles des compétences pour les agents basés sur LLM. Notre code est disponible à l'adresse https://github.com/UCSB-NLP-Chang/Skill-Usage.

English

Agent skills, which are reusable, domain-specific knowledge artifacts, have become a popular mechanism for extending LLM-based agents, yet formally benchmarking skill usage performance remains scarce. Existing skill benchmarking efforts focus on overly idealized conditions, where LLMs are directly provided with hand-crafted, narrowly-tailored task-specific skills for each task, whereas in many realistic settings, the LLM agent may have to search for and select relevant skills on its own, and even the closest matching skills may not be well-tailored for the task. In this paper, we conduct the first comprehensive study of skill utility under progressively challenging realistic settings, where agents must retrieve skills from a large collection of 34k real-world skills and may not have access to any hand-curated skills. Our findings reveal that the benefits of skills are fragile: performance gains degrade consistently as settings become more realistic, with pass rates approaching no-skill baselines in the most challenging scenarios. To narrow this gap, we study skill refinement strategies, including query-specific and query-agnostic approaches, and we show that query-specific refinement substantially recovers lost performance when the initial skills are of reasonable relevance and quality. We further demonstrate the generality of retrieval and refinement on Terminal-Bench 2.0, where they improve the pass rate of Claude Opus 4.6 from 57.7% to 65.5%. Our results, consistent across multiple models, highlight both the promise and the current limitations of skills for LLM-based agents. Our code is available at https://github.com/UCSB-NLP-Chang/Skill-Usage.

Dans quelle mesure les compétences agentielles fonctionnent-elles en conditions réelles : Évaluation comparative de l'utilisation des compétences des LLM dans des contextes réalistes

How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

Résumé

Support