SkillFlow: Benchmarking für lebenslange Kompetenzentdeckung und -entwicklung autonomer Agenten

Zusammenfassung

Während sich die Fähigkeitsgrenzen autonomer Agenten stetig erweitern und sie zunehmend in der Lage sind, spezialisierte Aufgaben durch Plug-and-Play-externe Fähigkeiten zu bewältigen, testen aktuelle Benchmarks größtenteils nur, ob Modelle vorgegebene Fähigkeiten nutzen können. Ungeklärt bleibt, ob sie Fähigkeiten aus Erfahrung entdecken, sie nach Fehlschlägen reparieren und über die Zeit hinweg eine kohärente Bibliothek pflegen können. Wir stellen SkillFlow vor, einen Benchmark mit 166 Aufgaben aus 20 Familien, bei deren Konstruktion innerhalb jeder Familie ein domainspezifischer Ausführungsfluss (Domain-Agnostic Execution Flow, DAEF) zugrunde liegt. Dieser definiert ein Agenten-Workflow-Framework, sodass diese Aufgaben einen konsistenten Arbeitsablauf teilen. Agenten werden unter einem agentischen lebenslangen Lernprotokoll (Agentic Lifelong Learning) evaluiert, bei dem sie ohne vordefinierte Fähigkeiten starten, Aufgaben sequenziell innerhalb jeder Familie lösen, Erkenntnisse durch trajectorien- und rubrikengesteuerte Fähigkeits-Patches externalisieren und die aktualisierte Bibliothek fortführen. Experimente zeigen eine erhebliche Fähigkeitslücke. Für Claude Opus 4.6 verbessert die lebenslange Fähigkeitsentwicklung die Aufgabenerfüllung von 62,65 % auf 71,08 % (+8,43 Punkte). Eine hohe Fähigkeitsnutzung bedeutet jedoch nicht zwangsläufig einen hohen Nutzen: Kimi K2.5 verzeichnet trotz einer Fähigkeitsnutzungsrate von 66,87 % nur einen Zuwachs von +0,60 Punkten, während Qwen-Coder-Next lediglich eine Aufgabenerfüllungsrate von 44,58 % erreicht und sich im Vergleich zur Basiskonfiguration sogar verschlechtert. SkillFlow liefert eine strukturierte Testumgebung für diese Forschungsrichtung sowie eine tiefgehende empirische Analyse der Fähigkeitsentdeckung, -korrektur, -übertragung und ihrer Fehlermodi unter lebenslanger Evaluation.

English

As the capability frontier of autonomous agents continues to expand, they are increasingly able to complete specialized tasks through plug-and-play external skills. Yet current benchmarks mostly test whether models can use provided skills, leaving open whether they can discover skills from experience, repair them after failure, and maintain a coherent library over time. We introduce SkillFlow, a benchmark of 166 tasks across 20 families in which task construction within each family follows a Domain-Agnostic Execution Flow (DAEF) that defines an agent workflow framework, allowing these tasks to share a consistent workflow. Agents are evaluated under an Agentic Lifelong Learning protocol in which they begin without skills, solve tasks sequentially within each family, externalize lessons through trajectory- and rubric-driven skill patches, and carry the updated library forward. Experiments reveal a substantial capability gap. For Claude Opus 4.6, lifelong skill evolution improves task success from 62.65% to 71.08% (+8.43 points). However, high skill usage does not necessarily imply high utility: Kimi K2.5 gains only +0.60 points despite 66.87% skill usage, while Qwen-Coder-Next reaches only a 44.58% task completion rate and still regresses relative to the vanilla setting. SkillFlow contributes a structured testbed for this direction and an in-depth empirical analysis of skill discovery, patching, transfer, and their failure modes under lifelong evaluation.

SkillFlow: Benchmarking für lebenslange Kompetenzentdeckung und -entwicklung autonomer Agenten

SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

Zusammenfassung

Support