Skills-Coach: Саморазвивающийся оптимизатор навыков на основе беспоискового GRPO

Аннотация

Мы представляем Skills-Coach — новую автоматизированную систему, предназначенную для значительного улучшения саморазвития навыков у агентов на основе больших языковых моделей (LLM). Решая проблему текущей фрагментированности экосистемы навыков, Skills-Coach исследует границы возможностей навыков, тем самым способствуя достижению всестороннего охвата компетенций, необходимого для интеллектуальных приложений. Фреймворк состоит из четырёх основных модулей: модуля генерации разнообразных задач, который систематически создает комплексный набор тестов для различных навыков; облегчённого модуля оптимизации, предназначенного для улучшения промптов навыков и соответствующего кода; модуля сравнительного выполнения, который обеспечивает запуск и оценку как исходных, так и оптимизированных навыков; и модуля отслеживаемой оценки, который строго оценивает производительность по заданным критериям. Skills-Coach предлагает гибкие варианты выполнения через свои виртуальный и реальный режимы. Для проверки эффективности мы представляем Skill-X — комплексный эталонный набор данных, состоящий из 48 разнообразных навыков. Результаты экспериментов показывают, что Skills-Coach достигает значительного улучшения производительности навыков в широком спектре категорий, что подчеркивает его потенциал для продвижения разработки более надежных и адаптируемых агентов на основе LLM.

English

We introduce Skills-Coach, a novel automated framework designed to significantly enhance the self-evolution of skills within Large Language Model (LLM)-based agents. Addressing the current fragmentation of the skill ecosystem, Skills-Coach explores the boundaries of skill capabilities, thereby facilitating the comprehensive competency coverage essential for intelligent applications. The framework comprises four core modules: a Diverse Task Generation Module that systematically creates a comprehensive test suite for various skills; a Lightweight Optimization Module dedicated to optimizing skill prompts and their corresponding code; a Comparative Execution Module facilitating the execution and evaluation of both original and optimized skills; and a Traceable Evaluation Module, which rigorously evaluates performance against specified criteria. Skills-Coach offers flexible execution options through its virtual and real modes. To validate its efficacy, we introduce Skill-X, a comprehensive benchmark dataset consisting of 48 diverse skills. Experimental results demonstrate that Skills-Coach achieves significant performance improvements in skill capability across a wide range of categories, highlighting its potential to advance the development of more robust and adaptable LLM-based agents.

Skills-Coach: Саморазвивающийся оптимизатор навыков на основе беспоискового GRPO

Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

Аннотация

Support