Навык1: Унифицированная эволюция агентов с дополненными навыками посредством обучения с подкреплением

Аннотация

Библиотека устойчивых навыков позволяет агентам на основе языковых моделей повторно использовать успешные стратегии для решения различных задач. Поддержание такой библиотеки требует трех взаимосвязанных возможностей. Агент выбирает соответствующий навык, применяет его в процессе выполнения задачи и извлекает новые навыки из опыта. Существующие методы оптимизируют эти возможности изолированно или с использованием отдельных источников вознаграждения, что приводит к частичной и конфликтующей эволюции. Мы предлагаем Skill1 — фреймворк, который обучает единую политику совместной эволюции выбора, использования и извлечения навыков для достижения общей целевой задачи. Политика формирует запрос для поиска в библиотеке навыков, переранжирует кандидатов для выбора одного из них, решает задачу с его учетом и извлекает новый навык из траектории решения. Все обучение происходит на основе единого сигнала результативности задачи: его низкочастотный тренд определяет заслугу выбора, а высокочастотные вариации — заслугу извлечения. Эксперименты на ALFWorld и WebShop показывают, что Skill1 превосходит предыдущие подходы на основе навыков и методы обучения с подкреплением. Динамика обучения подтверждает совместную эволюцию трех возможностей, а ablation-исследования демонстрируют, что удаление любого сигнала заслуг ухудшает эволюцию.

English

A persistent skill library allows language model agents to reuse successful strategies across tasks. Maintaining such a library requires three coupled capabilities. The agent selects a relevant skill, utilizes it during execution, and distills new skills from experience. Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution. We propose Skill1, a framework that trains a single policy to co-evolve skill selection, utilization, and distillation toward a shared task-outcome objective. The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory. All learning derives from a single task-outcome signal. Its low-frequency trend credits selection and its high-frequency variation credits distillation. Experiments on ALFWorld and WebShop show that Skill1 outperforms prior skill-based and reinforcement learning baselines. Training dynamics confirm the co-evolution of the three capabilities, and ablations show that removing any credit signal degrades the evolution.

Навык1: Унифицированная эволюция агентов с дополненными навыками посредством обучения с подкреплением

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

Аннотация

Support