Skills-Coach: Ein sich selbst entwickelnder Skill-Optimierer mittels trainingsfreiem GRPO

Zusammenfassung

Wir stellen Skills-Coach vor, ein neuartiges, automatisiertes Framework, das darauf ausgelegt ist, die Selbstevolution von Fähigkeiten in agentenbasierten Großsprachmodellen (LLM) erheblich zu verbessern. Um die derzeitige Fragmentierung des Skill-Ökosystems zu adressieren, erkundet Skills-Coach die Grenzen der Fähigkeitskapazitäten und erleichtert so die umfassende Kompetenzabdeckung, die für intelligente Anwendungen essenziell ist. Das Framework umfasst vier Kernmodule: ein Diverses Aufgaben-Generierungsmodul, das systematisch einen umfassenden Testkatalog für verschiedene Fähigkeiten erstellt; ein Modul zur Leichtgewichtigen Optimierung, das der Optimierung von Skill-Prompts und deren entsprechendem Code gewidmet ist; ein Vergleichendes Ausführungsmodul, das die Ausführung und Bewertung sowohl ursprünglicher als auch optimierter Fähigkeiten ermöglicht; sowie ein Nachverfolgbares Bewertungsmodul, das die Leistung streng anhand spezifizierter Kriterien evaluiert. Skills-Coach bietet flexible Ausführungsoptionen durch seine virtuellen und realen Modi. Um seine Wirksamkeit zu validieren, führen wir Skill-X ein, einen umfassenden Benchmark-Datensatz, der 48 verschiedene Fähigkeiten umfasst. Experimentelle Ergebnisse zeigen, dass Skills-Coach signifikante Leistungsverbesserungen in den Fähigkeitskapazitäten über eine breite Kategoriepalette erzielt, was sein Potenzial unterstreicht, die Entwicklung robusterer und anpassungsfähigerer LLM-basierter Agenten voranzutreiben.

English

We introduce Skills-Coach, a novel automated framework designed to significantly enhance the self-evolution of skills within Large Language Model (LLM)-based agents. Addressing the current fragmentation of the skill ecosystem, Skills-Coach explores the boundaries of skill capabilities, thereby facilitating the comprehensive competency coverage essential for intelligent applications. The framework comprises four core modules: a Diverse Task Generation Module that systematically creates a comprehensive test suite for various skills; a Lightweight Optimization Module dedicated to optimizing skill prompts and their corresponding code; a Comparative Execution Module facilitating the execution and evaluation of both original and optimized skills; and a Traceable Evaluation Module, which rigorously evaluates performance against specified criteria. Skills-Coach offers flexible execution options through its virtual and real modes. To validate its efficacy, we introduce Skill-X, a comprehensive benchmark dataset consisting of 48 diverse skills. Experimental results demonstrate that Skills-Coach achieves significant performance improvements in skill capability across a wide range of categories, highlighting its potential to advance the development of more robust and adaptable LLM-based agents.

Skills-Coach: Ein sich selbst entwickelnder Skill-Optimierer mittels trainingsfreiem GRPO

Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

Zusammenfassung

Support