ChatPaper.aiChatPaper

SkillFlow: 自律エージェントの生涯スキル発見と進化のベンチマーク

SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

April 19, 2026
著者: Ziao Zhang, Kou Shi, Shiting Huang, Avery Nie, Yu Zeng, Yiming Zhao, Zhen Fang, Qishen Su, Haibo Qiu, Wei Yang, Qingnan Ren, Shun Zou, Wenxuan Huang, Lin Chen, Zehui Chen, Feng Zhao
cs.AI

要旨

自律エージェントの能力フロンティアが拡大を続ける中、プラグアンドプレイ型の外部スキルを通じて専門タスクを遂行できる場面が増えている。しかし、現在のベンチマークの多くは、モデルが提供されたスキルを利用できるかどうかをテストするにとどまり、経験からスキルを発見できるか、失敗後に修復できるか、時間の経過とともに首尾一貫したライブラリを維持できるかについては未検証のままである。本研究ではSkillFlowを紹介する。これは20のファミリーにわたる166タスクからなるベンチマークであり、各ファミリー内でのタスク構築は、エージェントのワークフローフレームワークを定義するドメイン非依存実行フロー(DAEF)に従う。これにより、これらのタスクは一貫したワークフローを共有する。エージェントは、エージェント的生涯学習プロトコルの下で評価される。このプロトコルでは、エージェントはスキルなしで開始し、各ファミリー内でタスクを逐次解決し、軌道および評価基準駆動によるスキルパッチを通じて学んだことを外部化し、更新されたライブラリを引き継いでいく。実験結果は、能力に大きな隔たりがあることを明らかにする。Claude Opus 4.6では、生涯にわたるスキル進化により、タスク成功率が62.65%から71.08%(+8.43ポイント)に向上した。しかし、スキル使用率が高いことが必ずしも高い有用性を意味しない。Kimi K2.5は66.87%のスキル使用率にもかかわらず、わずか+0.60ポイントの向上に留まり、Qwen-Coder-Nextは44.58%のタスク完了率に達するのみで、ベースライン設定と比較してむしろ後退した。SkillFlowは、この研究方向に対する構造化されたテストベッドと、生涯評価におけるスキル発見、パッチ適用、転移、およびそれらの失敗モードに関する詳細な実証分析を提供する。
English
As the capability frontier of autonomous agents continues to expand, they are increasingly able to complete specialized tasks through plug-and-play external skills. Yet current benchmarks mostly test whether models can use provided skills, leaving open whether they can discover skills from experience, repair them after failure, and maintain a coherent library over time. We introduce SkillFlow, a benchmark of 166 tasks across 20 families in which task construction within each family follows a Domain-Agnostic Execution Flow (DAEF) that defines an agent workflow framework, allowing these tasks to share a consistent workflow. Agents are evaluated under an Agentic Lifelong Learning protocol in which they begin without skills, solve tasks sequentially within each family, externalize lessons through trajectory- and rubric-driven skill patches, and carry the updated library forward. Experiments reveal a substantial capability gap. For Claude Opus 4.6, lifelong skill evolution improves task success from 62.65% to 71.08% (+8.43 points). However, high skill usage does not necessarily imply high utility: Kimi K2.5 gains only +0.60 points despite 66.87% skill usage, while Qwen-Coder-Next reaches only a 44.58% task completion rate and still regresses relative to the vanilla setting. SkillFlow contributes a structured testbed for this direction and an in-depth empirical analysis of skill discovery, patching, transfer, and their failure modes under lifelong evaluation.
PDF152April 22, 2026