SkillFlow: Benchmark voor Levenslange Vaardigheidsontdekking en -evolutie bij Autonome Agenten

Samenvatting

Naarmate de mogelijkheden van autonome agents zich verder uitbreiden, kunnen zij steeds meer gespecialiseerde taken voltooien door middel van plug-and-play externe vaardigheden. Toch testen huidige benchmarks vooral of modellen beschikbare vaardigheden kunnen gebruiken, terwijl onduidelijk blijft of zij vaardigheden uit ervaring kunnen ontdekken, deze na falen kunnen repareren en over tijd een coherente bibliotheek kunnen onderhouden. Wij introduceren SkillFlow, een benchmark met 166 taken verdeeld over 20 families, waarbij de taakconstructie binnen elke familie een Domein-Agnostische Uitvoeringsstroom volgt. Dit raamwerk definieert een werkschema voor de agent, waardoor deze taken een consistente workflow delen. Agents worden geëvalueerd volgens een Agentic Lifelong Learning-protocol: zij starten zonder vaardigheden, lossen taken sequentieel binnen elke familie op, externaliseren lessen via traject- en rubric-gestuurde vaardigheidspatches, en nemen de bijgewerkte bibliotheek mee naar volgende taken. Experimenten tonen een aanzienlijke capaciteitskloof. Voor Claude Opus 4.6 verbetert levenslange vaardigheidsevolutie de taaksuccesratio van 62,65% naar 71,08% (+8,43 punten). Hoge vaardigheidsgebruik impliceert echter niet noodzakelijk hoge nuttigheid: Kimi K2.5 boekt slechts +0,60 punten ondanks 66,87% vaardigheidsgebruik, terwijl Qwen-Coder-Next slechts een taakvoltooiingspercentage van 44,58% haalt en zelfs achteruitgaat ten opzichte van de baseline-instelling. SkillFlow levert een gestructureerde testomgeving voor deze onderzoeksrichting en een diepgaande empirische analyse van vaardigheidsontdekking, patching, transfer en hun faalmodi onder levenslange evaluatie.

English

As the capability frontier of autonomous agents continues to expand, they are increasingly able to complete specialized tasks through plug-and-play external skills. Yet current benchmarks mostly test whether models can use provided skills, leaving open whether they can discover skills from experience, repair them after failure, and maintain a coherent library over time. We introduce SkillFlow, a benchmark of 166 tasks across 20 families in which task construction within each family follows a Domain-Agnostic Execution Flow (DAEF) that defines an agent workflow framework, allowing these tasks to share a consistent workflow. Agents are evaluated under an Agentic Lifelong Learning protocol in which they begin without skills, solve tasks sequentially within each family, externalize lessons through trajectory- and rubric-driven skill patches, and carry the updated library forward. Experiments reveal a substantial capability gap. For Claude Opus 4.6, lifelong skill evolution improves task success from 62.65% to 71.08% (+8.43 points). However, high skill usage does not necessarily imply high utility: Kimi K2.5 gains only +0.60 points despite 66.87% skill usage, while Qwen-Coder-Next reaches only a 44.58% task completion rate and still regresses relative to the vanilla setting. SkillFlow contributes a structured testbed for this direction and an in-depth empirical analysis of skill discovery, patching, transfer, and their failure modes under lifelong evaluation.

SkillFlow: Benchmark voor Levenslange Vaardigheidsontdekking en -evolutie bij Autonome Agenten

SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

Samenvatting

Support