ChatPaper.aiChatPaper

SkillFlow: Бенчмаркинг непрерывного открытия и эволюции навыков для автономных агентов

SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

April 19, 2026
Авторы: Ziao Zhang, Kou Shi, Shiting Huang, Avery Nie, Yu Zeng, Yiming Zhao, Zhen Fang, Qishen Su, Haibo Qiu, Wei Yang, Qingnan Ren, Shun Zou, Wenxuan Huang, Lin Chen, Zehui Chen, Feng Zhao
cs.AI

Аннотация

По мере расширения границ возможностей автономных агентов они становятся все более способными выполнять специализированные задачи с помощью подключаемых внешних навыков. Однако современные бенчмарки в основном проверяют, способны ли модели использовать предоставленные навыки, оставляя открытым вопрос о том, могут ли они обнаруживать навыки на основе опыта, исправлять их после сбоев и поддерживать согласованную библиотеку с течением времени. Мы представляем SkillFlow — бенчмарк из 166 задач, охватывающих 20 семейств, в котором построение задач внутри каждого семейства следует Domain-Agnostic Execution Flow (DAEF), определяющему фреймворк рабочего процесса агента, что позволяет этим задачам иметь согласованный рабочий процесс. Агенты оцениваются по протоколу Agentic Lifelong Learning, в рамках которого они начинают без навыков, последовательно решают задачи внутри каждого семейства, экстернализируют полученные уроки через патчи навыков на основе траекторий и рубрик и переносят обновленную библиотеку вперед. Эксперименты выявляют существенный разрыв в возможностях. Для Claude Opus 4.6 эволюция навыков на протяжении жизненного цикла повышает успешность выполнения задач с 62,65% до 71,08% (+8,43 пункта). Однако высокое использование навыков не обязательно подразумевает высокую полезность: Kimi K2.5 получает лишь +0,60 пункта, несмотря на использование навыков на 66,87%, в то время как Qwen-Coder-Next достигает уровня завершения задач лишь в 44,58% и все равно демонстрирует регресс по сравнению с базовой настройкой. SkillFlow вносит вклад в виде структурированного полигона для этого направления исследований и предоставляет глубокий эмпирический анализ обнаружения, исправления, передачи навыков и их режимов отказа в условиях пожизненной оценки.
English
As the capability frontier of autonomous agents continues to expand, they are increasingly able to complete specialized tasks through plug-and-play external skills. Yet current benchmarks mostly test whether models can use provided skills, leaving open whether they can discover skills from experience, repair them after failure, and maintain a coherent library over time. We introduce SkillFlow, a benchmark of 166 tasks across 20 families in which task construction within each family follows a Domain-Agnostic Execution Flow (DAEF) that defines an agent workflow framework, allowing these tasks to share a consistent workflow. Agents are evaluated under an Agentic Lifelong Learning protocol in which they begin without skills, solve tasks sequentially within each family, externalize lessons through trajectory- and rubric-driven skill patches, and carry the updated library forward. Experiments reveal a substantial capability gap. For Claude Opus 4.6, lifelong skill evolution improves task success from 62.65% to 71.08% (+8.43 points). However, high skill usage does not necessarily imply high utility: Kimi K2.5 gains only +0.60 points despite 66.87% skill usage, while Qwen-Coder-Next reaches only a 44.58% task completion rate and still regresses relative to the vanilla setting. SkillFlow contributes a structured testbed for this direction and an in-depth empirical analysis of skill discovery, patching, transfer, and their failure modes under lifelong evaluation.
PDF152April 22, 2026