Skills-Coach: Un Optimizador de Habilidades de Auto-evolución mediante GRPO sin Entrenamiento

Resumen

Presentamos Skills-Coach, un novedoso marco automatizado diseñado para mejorar significativamente la auto-evolución de habilidades en agentes basados en Modelos de Lenguaje a Gran Escala (LLM). Abordando la fragmentación actual del ecosistema de habilidades, Skills-Coach explora los límites de las capacidades de las habilidades, facilitando así la cobertura integral de competencias esencial para aplicaciones inteligentes. El marco consta de cuatro módulos principales: un Módulo de Generación de Tareas Diversas que crea sistemáticamente un conjunto de pruebas exhaustivo para diversas habilidades; un Módulo de Optimización Ligera dedicado a optimizar las instrucciones (prompts) de las habilidades y su código correspondiente; un Módulo de Ejecución Comparativa que facilita la ejecución y evaluación de las habilidades originales y optimizadas; y un Módulo de Evaluación Rastreable, que evalúa rigurosamente el rendimiento frente a criterios específicos. Skills-Coach ofrece opciones de ejecución flexibles mediante sus modos virtual y real. Para validar su eficacia, presentamos Skill-X, un conjunto de datos de referencia integral que consta de 48 habilidades diversas. Los resultados experimentales demuestran que Skills-Coach logra mejoras significativas en el rendimiento de las capacidades de las habilidades en una amplia gama de categorías, destacando su potencial para impulsar el desarrollo de agentes basados en LLM más robustos y adaptables.

English

We introduce Skills-Coach, a novel automated framework designed to significantly enhance the self-evolution of skills within Large Language Model (LLM)-based agents. Addressing the current fragmentation of the skill ecosystem, Skills-Coach explores the boundaries of skill capabilities, thereby facilitating the comprehensive competency coverage essential for intelligent applications. The framework comprises four core modules: a Diverse Task Generation Module that systematically creates a comprehensive test suite for various skills; a Lightweight Optimization Module dedicated to optimizing skill prompts and their corresponding code; a Comparative Execution Module facilitating the execution and evaluation of both original and optimized skills; and a Traceable Evaluation Module, which rigorously evaluates performance against specified criteria. Skills-Coach offers flexible execution options through its virtual and real modes. To validate its efficacy, we introduce Skill-X, a comprehensive benchmark dataset consisting of 48 diverse skills. Experimental results demonstrate that Skills-Coach achieves significant performance improvements in skill capability across a wide range of categories, highlighting its potential to advance the development of more robust and adaptable LLM-based agents.

Skills-Coach: Un Optimizador de Habilidades de Auto-evolución mediante GRPO sin Entrenamiento

Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

Resumen

Support