OpenSkillEval : Audit automatique de l'écosystème des compétences ouvertes pour les agents LLM

Résumé

Les compétences, c'est-à-dire des instructions de workflow structurées distillées pour les grands modèles de langage (LLM), deviennent un mécanisme de plus en plus important pour améliorer les performances des agents sur des tâches réelles en aval. Cependant, alors que l'écosystème open-source de compétences se développe rapidement, il reste flou comment différents modèles et frameworks d'agents interagissent avec les compétences, comment évaluer la qualité des compétences, et comment les utilisateurs devraient sélectionner les compétences sous des compromis pratiques coût-performance. Dans cet article, nous présentons OpenSkillEval, un cadre d'évaluation automatique à la fois pour les systèmes d'agents augmentés par des compétences et pour les compétences elles-mêmes. Au lieu de se reposer sur des benchmarks statiques, OpenSkillEval construit automatiquement des instances de tâches réalistes à partir d'artefacts réels en évolution dans cinq catégories d'applications en aval : génération de présentations, conception web front-end, génération d'affiches, visualisation de données et génération de rapports. Il collecte et organise en outre les compétences contribuées par la communauté pour une comparaison contrôlée dans des paramètres de tâches unifiés. En utilisant plus de 600 instances de tâches générées dynamiquement et 30 compétences open-source, nous menons une évaluation systématique des modèles et frameworks d'agents de l'état de l'art. Nos résultats montrent que la disponibilité des compétences ne garantit pas une utilisation efficace des compétences, que le bénéfice de l'augmentation par compétences dépend fortement à la fois du modèle sous-jacent et du framework d'agent, et que de nombreuses compétences populaires publiquement ne surpassent pas systématiquement les agents de base sans compétences. Ces résultats soulignent le besoin d'une évaluation dynamique et ancrée dans les tâches, et fournissent des perspectives pratiques sur la conception, la sélection et le déploiement de compétences pour les agents LLM. Des cas supplémentaires et des ressources de benchmark sont disponibles sur le site web du projet : https://yingjiahao14.github.io/OpenSkillEval-Web/.

English

Skills, i.e., structured workflow instructions distilled for large language models (LLMs), are becoming an increasingly important mechanism for improving agent performance on real-world downstream tasks. However, as the open-source skill ecosystem rapidly expands, it remains unclear how different models and agent frameworks interact with skills, how to evaluate skill quality, and how users should select skills under practical cost-performance trade-offs. In this paper, we present OpenSkillEval, an automatic evaluation framework for both skill-augmented agent systems and the skills themselves. Instead of relying on static benchmarks, OpenSkillEval automatically constructs realistic task instances from evolving real-world artifacts across five categories of downstream applications: presentation generation, front-end web design, poster generation, data visualization, and report generation. It further collects and organizes community-contributed skills for controlled comparison under unified task settings. Using more than 600 dynamically generated task instances and 30 open-source skills, we conduct a systematic evaluation of state-of-the-art models and agent frameworks. Our results show that skill availability does not guarantee effective skill usage, that the benefit of skill augmentation depends strongly on both the underlying model and the agent framework, and that many publicly popular skills do not consistently outperform base agents without skills. These findings highlight the need for dynamic, task-grounded evaluation and provide practical insights into the design, selection, and deployment of skills for LLM agents. Additional cases and benchmark resources are available on the project website: https://yingjiahao14.github.io/OpenSkillEval-Web/.