Skills-Coach: Een Zelf-evoluerende Vaardighedenoptimalisator via Trainingsvrije GRPO

Samenvatting

Wij introduceren Skills-Coach, een nieuw geautomatiseerd raamwerk ontworpen om de zelfontwikkeling van vaardigheden binnen op Large Language Models (LLM) gebaseerde agents aanzienlijk te verbeteren. Skills-Coach pakt de huidige fragmentatie van het vaardigheidsecosysteem aan en verkent de grenzen van vaardigheidsmogelijkheden, waardoor het de uitgebreide competentiedekking mogelijk maakt die essentieel is voor intelligente toepassingen. Het raamwerk bestaat uit vier kernmodules: een Diverse Taakgeneratiemodule die systematisch een uitgebreide testsuite voor diverse vaardigheden creëert; een Lichtgewicht Optimalisatiemodule gericht op het optimaliseren van vaardigheidsprompts en bijbehorende code; een Vergelijkende Uitvoeringsmodule die de uitvoering en evaluatie van zowel originele als geoptimaliseerde vaardigheden vergemakkelijkt; en een Traceerbare Evaluatiemodule die de prestaties rigoureus toetst aan gespecificeerde criteria. Skills-Coach biedt flexibele uitvoeringsopties via zijn virtuele en reële modi. Om de doeltreffendheid te valideren, introduceren wij Skill-X, een uitgebreide benchmarkdataset bestaande uit 48 diverse vaardigheden. Experimentele resultaten tonen aan dat Skills-Coach significante prestatieverbeteringen bereikt in vaardigheidsvermogen over een breed scala aan categorieën, wat het potentieel onderstreept om de ontwikkeling van robuustere en aanpasbaardere LLM-agents te bevorderen.

English

We introduce Skills-Coach, a novel automated framework designed to significantly enhance the self-evolution of skills within Large Language Model (LLM)-based agents. Addressing the current fragmentation of the skill ecosystem, Skills-Coach explores the boundaries of skill capabilities, thereby facilitating the comprehensive competency coverage essential for intelligent applications. The framework comprises four core modules: a Diverse Task Generation Module that systematically creates a comprehensive test suite for various skills; a Lightweight Optimization Module dedicated to optimizing skill prompts and their corresponding code; a Comparative Execution Module facilitating the execution and evaluation of both original and optimized skills; and a Traceable Evaluation Module, which rigorously evaluates performance against specified criteria. Skills-Coach offers flexible execution options through its virtual and real modes. To validate its efficacy, we introduce Skill-X, a comprehensive benchmark dataset consisting of 48 diverse skills. Experimental results demonstrate that Skills-Coach achieves significant performance improvements in skill capability across a wide range of categories, highlighting its potential to advance the development of more robust and adaptable LLM-based agents.

Skills-Coach: Een Zelf-evoluerende Vaardighedenoptimalisator via Trainingsvrije GRPO

Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

Samenvatting

Support