OpenSkillEval: Auditoria Automática do Ecossistema de Habilidades Abertas para Agentes de LLM

Resumo

Habilidades, ou seja, instruções de fluxo de trabalho estruturadas destiladas para modelos de linguagem de grande porte (LLMs), estão se tornando um mecanismo cada vez mais importante para melhorar o desempenho de agentes em tarefas downstream do mundo real. No entanto, à medida que o ecossistema de habilidades de código aberto se expande rapidamente, ainda não está claro como diferentes modelos e frameworks de agentes interagem com as habilidades, como avaliar a qualidade das habilidades e como os usuários devem selecionar habilidades sob compromissos práticos de custo-desempenho. Neste artigo, apresentamos o OpenSkillEval, um quadro de avaliação automática tanto para sistemas agentes aumentados por habilidades quanto para as próprias habilidades. Em vez de depender de benchmarks estáticos, o OpenSkillEval constrói automaticamente instâncias de tarefas realistas a partir de artefatos do mundo real em evolução, abrangendo cinco categorias de aplicações downstream: geração de apresentações, design de páginas web front-end, geração de cartazes, visualização de dados e geração de relatórios. Ele também coleta e organiza habilidades contribuídas pela comunidade para comparação controlada sob configurações de tarefas unificadas. Utilizando mais de 600 instâncias de tarefas geradas dinamicamente e 30 habilidades de código aberto, realizamos uma avaliação sistemática de modelos e frameworks de agentes de última geração. Nossos resultados mostram que a disponibilidade de habilidades não garante seu uso eficaz, que o benefício da aumento por habilidades depende fortemente tanto do modelo subjacente quanto do framework do agente, e que muitas habilidades populares publicamente não superam consistentemente agentes base sem habilidades. Essas descobertas destacam a necessidade de uma avaliação dinâmica e fundamentada em tarefas, e fornecem insights práticos para o design, seleção e implantação de habilidades para agentes LLM. Casos adicionais e recursos de referência estão disponíveis no site do projeto: https://yingjiahao14.github.io/OpenSkillEval-Web/.

English

Skills, i.e., structured workflow instructions distilled for large language models (LLMs), are becoming an increasingly important mechanism for improving agent performance on real-world downstream tasks. However, as the open-source skill ecosystem rapidly expands, it remains unclear how different models and agent frameworks interact with skills, how to evaluate skill quality, and how users should select skills under practical cost-performance trade-offs. In this paper, we present OpenSkillEval, an automatic evaluation framework for both skill-augmented agent systems and the skills themselves. Instead of relying on static benchmarks, OpenSkillEval automatically constructs realistic task instances from evolving real-world artifacts across five categories of downstream applications: presentation generation, front-end web design, poster generation, data visualization, and report generation. It further collects and organizes community-contributed skills for controlled comparison under unified task settings. Using more than 600 dynamically generated task instances and 30 open-source skills, we conduct a systematic evaluation of state-of-the-art models and agent frameworks. Our results show that skill availability does not guarantee effective skill usage, that the benefit of skill augmentation depends strongly on both the underlying model and the agent framework, and that many publicly popular skills do not consistently outperform base agents without skills. These findings highlight the need for dynamic, task-grounded evaluation and provide practical insights into the design, selection, and deployment of skills for LLM agents. Additional cases and benchmark resources are available on the project website: https://yingjiahao14.github.io/OpenSkillEval-Web/.