OpenSkillEval: Automatische Prüfung des Open-Skill-Ökosystems für LLM-Agenten

Zusammenfassung

Fähigkeiten, d. h. strukturierte Arbeitsablaufsanweisungen, die für große Sprachmodelle (Large Language Models, LLMs) destilliert wurden, werden zunehmend zu einem wichtigen Mechanismus zur Verbesserung der Agentenleistung bei realen nachgelagerten Aufgaben. Da sich das Ökosystem quelloffener Fähigkeiten jedoch rapide erweitert, bleibt unklar, wie verschiedene Modelle und Agenten-Frameworks mit Fähigkeiten interagieren, wie die Qualität von Fähigkeiten zu bewerten ist und wie Nutzer unter praktischen Kosten-Leistungs-Abwägungen Fähigkeiten auswählen sollten. In diesem Artikel stellen wir OpenSkillEval vor, ein automatisches Bewertungsframework sowohl für skill-erweiterte Agentensysteme als auch für die Fähigkeiten selbst. Anstatt sich auf statische Benchmarks zu stützen, konstruiert OpenSkillEval automatisch realistische Aufgabeninstanzen aus sich weiterentwickelnden realen Artefakten in fünf Kategorien von nachgelagerten Anwendungen: Präsentationserstellung, Frontend-Webdesign, Postererstellung, Datenvisualisierung und Berichtserstellung. Darüber hinaus werden gemeinschaftlich beigetragene Fähigkeiten für einen kontrollierten Vergleich unter einheitlichen Aufgabeneinstellungen gesammelt und organisiert. Unter Verwendung von über 600 dynamisch generierten Aufgabeninstanzen und 30 quelloffenen Fähigkeiten führen wir eine systematische Bewertung modernster Modelle und Agenten-Frameworks durch. Unsere Ergebnisse zeigen, dass die Verfügbarkeit von Fähigkeiten keine effektive Nutzung von Fähigkeiten garantiert, dass der Nutzen der Fähigkeitserweiterung stark vom zugrunde liegenden Modell und dem Agenten-Framework abhängt und dass viele öffentlich beliebte Fähigkeiten Basis-Agenten ohne Fähigkeiten nicht durchgängig übertreffen. Diese Ergebnisse unterstreichen die Notwendigkeit einer dynamischen, aufgabenbasierten Bewertung und liefern praktische Einblicke in das Design, die Auswahl und den Einsatz von Fähigkeiten für LLM-Agenten. Zusätzliche Fallbeispiele und Benchmark-Ressourcen sind auf der Projektwebsite verfügbar: https://yingjiahao14.github.io/OpenSkillEval-Web/.

English

Skills, i.e., structured workflow instructions distilled for large language models (LLMs), are becoming an increasingly important mechanism for improving agent performance on real-world downstream tasks. However, as the open-source skill ecosystem rapidly expands, it remains unclear how different models and agent frameworks interact with skills, how to evaluate skill quality, and how users should select skills under practical cost-performance trade-offs. In this paper, we present OpenSkillEval, an automatic evaluation framework for both skill-augmented agent systems and the skills themselves. Instead of relying on static benchmarks, OpenSkillEval automatically constructs realistic task instances from evolving real-world artifacts across five categories of downstream applications: presentation generation, front-end web design, poster generation, data visualization, and report generation. It further collects and organizes community-contributed skills for controlled comparison under unified task settings. Using more than 600 dynamically generated task instances and 30 open-source skills, we conduct a systematic evaluation of state-of-the-art models and agent frameworks. Our results show that skill availability does not guarantee effective skill usage, that the benefit of skill augmentation depends strongly on both the underlying model and the agent framework, and that many publicly popular skills do not consistently outperform base agents without skills. These findings highlight the need for dynamic, task-grounded evaluation and provide practical insights into the design, selection, and deployment of skills for LLM agents. Additional cases and benchmark resources are available on the project website: https://yingjiahao14.github.io/OpenSkillEval-Web/.