Skills-Coach : Un optimiseur de compétences auto-évolutif via GRPO sans entraînement

Résumé

Nous présentons Skills-Coach, un nouveau cadre automatisé conçu pour améliorer significativement l'auto-évolution des compétences au sein des agents basés sur les grands modèles de langage (LLM). En réponse à la fragmentation actuelle de l'écosystème des compétences, Skills-Coach explore les limites des capacités des compétences, facilitant ainsi la couverture complète des compétences essentielles pour les applications intelligentes. Le cadre comprend quatre modules principaux : un Module de Génération de Tâches Diversifiées qui crée systématiquement une suite de tests exhaustive pour diverses compétences ; un Module d'Optimisation Léger dédié à l'optimisation des invites de compétences et de leur code correspondant ; un Module d'Exécution Comparative facilitant l'exécution et l'évaluation des compétences originales et optimisées ; et un Module d'Évaluation Traçable, qui évalue rigoureusement les performances par rapport à des critères spécifiés. Skills-Coach offre des options d'exécution flexibles grâce à ses modes virtuel et réel. Pour valider son efficacité, nous présentons Skill-X, un ensemble de données de référence complet comprenant 48 compétences diverses. Les résultats expérimentaux démontrent que Skills-Coach permet des améliorations significatives des performances des compétences sur un large éventail de catégories, soulignant son potentiel pour faire progresser le développement d'agents basés sur les LLM plus robustes et adaptables.

English

We introduce Skills-Coach, a novel automated framework designed to significantly enhance the self-evolution of skills within Large Language Model (LLM)-based agents. Addressing the current fragmentation of the skill ecosystem, Skills-Coach explores the boundaries of skill capabilities, thereby facilitating the comprehensive competency coverage essential for intelligent applications. The framework comprises four core modules: a Diverse Task Generation Module that systematically creates a comprehensive test suite for various skills; a Lightweight Optimization Module dedicated to optimizing skill prompts and their corresponding code; a Comparative Execution Module facilitating the execution and evaluation of both original and optimized skills; and a Traceable Evaluation Module, which rigorously evaluates performance against specified criteria. Skills-Coach offers flexible execution options through its virtual and real modes. To validate its efficacy, we introduce Skill-X, a comprehensive benchmark dataset consisting of 48 diverse skills. Experimental results demonstrate that Skills-Coach achieves significant performance improvements in skill capability across a wide range of categories, highlighting its potential to advance the development of more robust and adaptable LLM-based agents.

Skills-Coach : Un optimiseur de compétences auto-évolutif via GRPO sans entraînement

Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

Résumé

Support