SkillEvolBench: Бенчмаркинг эволюции от эпизодического опыта к процедурным навыкам

Аннотация

Агенты на основе больших языковых моделей (БЯМ) накапливают богатые эпизодические траектории при решении реальных задач, однако остаётся неясным, можно ли такой опыт дистиллировать в многократно используемые процедурные навыки. Мы представляем SkillEvolBench — диагностический бенчмарк для оценки этого этапа перехода от повторного использования опыта к формированию навыков. Он содержит 180 задач из шести реальных сред агентов, организованных в ролевые семейства задач с общими скрытыми процедурами. Агенты обучаются на задачах приобретения, обновляют внешнюю библиотеку навыков, используя сжатые траектории и обратную связь от верификатора, а затем сталкиваются с замороженными задачами развертывания, проверяющими сдвиг контекста, состязательные сокращения и композицию. Сравнивая само-сгенерированную и курированную начальную эволюцию навыков с контрольными условиями без навыков и с сырыми траекториями, SkillEvolBench отделяет процедурную абстракцию от базовой способности, курированных предварительных знаний и прямого использования эпизодических следов. На десяти конфигурациях моделей и трёх обвязках агентов мы обнаружили, что современные агенты часто адаптируются локально, но редко формируют надёжные многократно используемые навыки. Условия, основанные на навыках, могут улучшить приобретение или воспроизведение, а отдельные модели иногда выигрывают по конкретным осям развертывания, но эти выигрыши нестабильны при замороженном развертывании. Повторное использование сырых траекторий часто превосходит дистиллированные навыки, что позволяет предположить: текущие процедуры абстрагирования отбрасывают контекстные и процедурные подсказки, остающиеся полезными для будущих задач. Анализ ёмкости и стоимости дополнительно показывает, что запись большего числа навыков или более крупных библиотек ресурсов уровня Tier-3 недостаточна: дополнительные обновления могут улучшить покрытие, но при этом вносят эпизод-специфический дрейф и процедурный мусор. Эти выводы позиционируют SkillEvolBench как тестовую платформу для измерения того, когда одноразовый опыт становится прочным процедурным знанием, а не памятью, локальной для задачи.

English

Large language model (LLM) agents accumulate rich episodic trajectories while solving real-world tasks, but it remains unclear whether such experience can be distilled into reusable procedural skills. We introduce SkillEvolBench, a diagnostic benchmark for evaluating this step from experience reuse to skill formation. It contains 180 tasks across six real-world agent environments, organized into role-conditioned task families with shared latent procedures. Agents learn from acquisition tasks, update an external skill library using compacted trajectories and verifier feedback, and then face frozen deployment tasks testing context shift, adversarial shortcuts, and composition. By comparing self-generated and curated-start skill evolution against no-skill and raw-trajectory controls, SkillEvolBench separates procedural abstraction from base capability, curated prior knowledge, and direct reuse of episodic traces. Across ten model configurations and three agent harnesses, we find that current agents often adapt locally but rarely form robust reusable skills. Skill-based conditions can improve acquisition or replay, and individual models sometimes gain on specific deployment axes, but these gains are unstable under frozen deployment. Raw-trajectory reuse frequently outperforms distilled skills, suggesting that current abstraction procedures discard contextual and procedural cues that remain useful for future tasks. Capacity and cost analyses further show that writing more skills or larger Tier-3 resource libraries is not sufficient: additional updates can improve coverage while introducing episode-specific drift and procedural clutter. These findings position SkillEvolBench as a testbed for measuring when one-off experience becomes durable procedural knowledge rather than task-local memory.