SkillFlow : Référencement de la Découverte et de l'Évolution Continues de Compétences pour les Agents Autonomes

Résumé

Alors que les capacités des agents autonomes ne cessent de s'étendre, ceux-ci sont de plus en plus aptes à accomplir des tâches spécialisées via des compétences externes prêtes à l'emploi. Pourtant, les benchmarks actuels testent principalement si les modèles peuvent utiliser des compétences fournies, sans évaluer s'ils sont capables de découvrir des compétences à partir de l'expérience, de les réparer après un échec et de maintenir une bibliothèque cohérente dans le temps. Nous présentons SkillFlow, un benchmark de 166 tâches réparties en 20 familles, où la construction des tâches au sein de chaque famille suit un Flux d'Exécution Indépendant du Domaine (DAEF) qui définit un cadre de workflow pour l'agent, permettant à ces tâches de partager un workflow cohérent. Les agents sont évalués selon un protocole d'Apprentissage Continu Agentique dans lequel ils débutent sans compétences, résolvent des tâches séquentiellement au sein de chaque famille, externalisent les enseignements via des correctifs de compétences guidés par des trajectoires et des rubriques, et propagent la bibliothèque mise à jour. Les expériences révèlent un écart substantiel de capacités. Pour Claude Opus 4.6, l'évolution continue des compétences améliore le taux de réussite des tâches de 62,65 % à 71,08 % (+8,43 points). Cependant, une utilisation intensive des compétences n'implique pas nécessairement une utilité élevée : Kimi K2.5 ne gagne que +0,60 point malgré une utilisation des compétences de 66,87 %, tandis que Qwen-Coder-Next n'atteint qu'un taux d'accomplissement des tâches de 44,58 % et régresse même par rapport au paramètre de base. SkillFlow contribue un banc d'essai structuré pour cette orientation et une analyse empirique approfondie de la découverte, de la correction, du transfert des compétences et de leurs modes d'échec dans un contexte d'évaluation continue.

English

As the capability frontier of autonomous agents continues to expand, they are increasingly able to complete specialized tasks through plug-and-play external skills. Yet current benchmarks mostly test whether models can use provided skills, leaving open whether they can discover skills from experience, repair them after failure, and maintain a coherent library over time. We introduce SkillFlow, a benchmark of 166 tasks across 20 families in which task construction within each family follows a Domain-Agnostic Execution Flow (DAEF) that defines an agent workflow framework, allowing these tasks to share a consistent workflow. Agents are evaluated under an Agentic Lifelong Learning protocol in which they begin without skills, solve tasks sequentially within each family, externalize lessons through trajectory- and rubric-driven skill patches, and carry the updated library forward. Experiments reveal a substantial capability gap. For Claude Opus 4.6, lifelong skill evolution improves task success from 62.65% to 71.08% (+8.43 points). However, high skill usage does not necessarily imply high utility: Kimi K2.5 gains only +0.60 points despite 66.87% skill usage, while Qwen-Coder-Next reaches only a 44.58% task completion rate and still regresses relative to the vanilla setting. SkillFlow contributes a structured testbed for this direction and an in-depth empirical analysis of skill discovery, patching, transfer, and their failure modes under lifelong evaluation.

SkillFlow : Référencement de la Découverte et de l'Évolution Continues de Compétences pour les Agents Autonomes

SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

Résumé

Support