SkillFlow: Benchmark per la Scoperta e l'Evoluzione Continua di Abilità negli Agenti Autonomi

Abstract

Mentre le capacità degli agenti autonomi continuano ad espandersi, essi sono sempre più in grado di completare compiti specializzati attraverso l'utilizzo di abilità esterne plug-and-play. Tuttavia, gli attuali benchmark testano principalmente se i modelli possono utilizzare le abilità fornite, lasciando aperta la questione se siano in grado di scoprire abilità dall'esperienza, ripararle dopo un fallimento e mantenere una libreria coerente nel tempo. Introduciamo SkillFlow, un benchmark di 166 task suddivisi in 20 famiglie, in cui la costruzione dei task all'interno di ciascuna famiglia segue un Flusso di Esecuzione Agnostico al Dominio (DAEF) che definisce un framework di workflow per l'agente, consentendo a questi task di condividere un workflow coerente. Gli agenti vengono valutati secondo un protocollo di Apprendimento Permanente Agente-iniziale in cui essi iniziano senza abilità, risolvono i task in sequenza all'interno di ciascuna famiglia, esternalizzano le lezioni apprese attraverso patch di abilità guidate da traiettorie e rubriche, e portano avanti la libreria aggiornata. Gli esperimenti rivelano un divario sostanziale nelle capacità. Per Claude Opus 4.6, l'evoluzione permanente delle abilità migliora il successo dei task dal 62.65% al 71.08% (+8.43 punti). Tuttavia, un alto utilizzo delle abilità non implica necessariamente un'alta utilità: Kimi K2.5 guadagna solo +0.60 punti nonostante un utilizzo delle abilità del 66.87%, mentre Qwen-Coder-Next raggiunge solo un tasso di completamento dei task del 44.58% e regredisce comunque rispetto all'impostazione base. SkillFlow contribuisce con un ambiente di test strutturato per questa direzione di ricerca e un'analisi empirica approfondita della scoperta, della patch, del trasferimento delle abilità e delle loro modalità di fallimento in una valutazione permanente.

English

As the capability frontier of autonomous agents continues to expand, they are increasingly able to complete specialized tasks through plug-and-play external skills. Yet current benchmarks mostly test whether models can use provided skills, leaving open whether they can discover skills from experience, repair them after failure, and maintain a coherent library over time. We introduce SkillFlow, a benchmark of 166 tasks across 20 families in which task construction within each family follows a Domain-Agnostic Execution Flow (DAEF) that defines an agent workflow framework, allowing these tasks to share a consistent workflow. Agents are evaluated under an Agentic Lifelong Learning protocol in which they begin without skills, solve tasks sequentially within each family, externalize lessons through trajectory- and rubric-driven skill patches, and carry the updated library forward. Experiments reveal a substantial capability gap. For Claude Opus 4.6, lifelong skill evolution improves task success from 62.65% to 71.08% (+8.43 points). However, high skill usage does not necessarily imply high utility: Kimi K2.5 gains only +0.60 points despite 66.87% skill usage, while Qwen-Coder-Next reaches only a 44.58% task completion rate and still regresses relative to the vanilla setting. SkillFlow contributes a structured testbed for this direction and an in-depth empirical analysis of skill discovery, patching, transfer, and their failure modes under lifelong evaluation.

SkillFlow: Benchmark per la Scoperta e l'Evoluzione Continua di Abilità negli Agenti Autonomi

SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

Abstract

Support