Навык1: Унифицированная эволюция агентов с дополненными навыками посредством обучения с подкреплениемSkill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
Библиотека устойчивых навыков позволяет агентам на основе языковых моделей повторно использовать успешные стратегии для решения различных задач. Поддержание такой библиотеки требует трех взаимосвязанных возможностей. Агент выбирает соответствующий навык, применяет его в процессе выполнения задачи и извлекает новые навыки из опыта. Существующие методы оптимизируют эти возможности изолированно или с использованием отдельных источников вознаграждения, что приводит к частичной и конфликтующей эволюции. Мы предлагаем Skill1 — фреймворк, который обучает единую политику совместной эволюции выбора, использования и извлечения навыков для достижения общей целевой задачи. Политика формирует запрос для поиска в библиотеке навыков, переранжирует кандидатов для выбора одного из них, решает задачу с его учетом и извлекает новый навык из траектории решения. Все обучение происходит на основе единого сигнала результативности задачи: его низкочастотный тренд определяет заслугу выбора, а высокочастотные вариации — заслугу извлечения. Эксперименты на ALFWorld и WebShop показывают, что Skill1 превосходит предыдущие подходы на основе навыков и методы обучения с подкреплением. Динамика обучения подтверждает совместную эволюцию трех возможностей, а ablation-исследования демонстрируют, что удаление любого сигнала заслуг ухудшает эволюцию.