SkillFlow: Avaliação de Descoberta e Evolução Contínua de Habilidades para Agentes Autônomos

Resumo

À medida que a fronteira de capacidade dos agentes autônomos continua a se expandir, eles se tornam cada vez mais capazes de completar tarefas especializadas por meio de habilidades externas do tipo "plug-and-play". No entanto, os benchmarks atuais testam principalmente se os modelos podem usar habilidades fornecidas, deixando em aberto a questão de se eles podem descobrir habilidades a partir da experiência, repará-las após falhas e manter uma biblioteca coerente ao longo do tempo. Apresentamos o SkillFlow, um benchmark composto por 166 tarefas distribuídas em 20 famílias, no qual a construção de tarefas dentro de cada família segue um Fluxo de Execução Agnóstico a Domínios (DAEF) que define uma estrutura de fluxo de trabalho para o agente, permitindo que essas tarefas compartilhem um fluxo de trabalho consistente. Os agentes são avaliados sob um protocolo de Aprendizado Contínuo Agentivo, no qual começam sem habilidades, resolvem tarefas sequencialmente dentro de cada família, externalizam lições aprendidas por meio de correções de habilidade baseadas em trajetórias e rubricas, e carregam a biblioteca atualizada adiante. Os experimentos revelam uma lacuna substancial de capacidade. Para o Claude Opus 4.6, a evolução contínua de habilidades melhora a taxa de sucesso nas tarefas de 62,65% para 71,08% (+8,43 pontos). No entanto, um alto uso de habilidades não implica necessariamente alta utilidade: o Kimi K2.5 ganha apenas +0,60 pontos, apesar de um uso de habilidades de 66,87%, enquanto o Qwen-Coder-Next atinge apenas uma taxa de conclusão de tarefas de 44,58% e ainda regride em relação à configuração padrão (vanilla). O SkillFlow contribui com um ambiente de teste estruturado para essa direção de pesquisa e uma análise empírica detalhada da descoberta, correção, transferência de habilidades e seus modos de falha sob avaliação contínua.

English

As the capability frontier of autonomous agents continues to expand, they are increasingly able to complete specialized tasks through plug-and-play external skills. Yet current benchmarks mostly test whether models can use provided skills, leaving open whether they can discover skills from experience, repair them after failure, and maintain a coherent library over time. We introduce SkillFlow, a benchmark of 166 tasks across 20 families in which task construction within each family follows a Domain-Agnostic Execution Flow (DAEF) that defines an agent workflow framework, allowing these tasks to share a consistent workflow. Agents are evaluated under an Agentic Lifelong Learning protocol in which they begin without skills, solve tasks sequentially within each family, externalize lessons through trajectory- and rubric-driven skill patches, and carry the updated library forward. Experiments reveal a substantial capability gap. For Claude Opus 4.6, lifelong skill evolution improves task success from 62.65% to 71.08% (+8.43 points). However, high skill usage does not necessarily imply high utility: Kimi K2.5 gains only +0.60 points despite 66.87% skill usage, while Qwen-Coder-Next reaches only a 44.58% task completion rate and still regresses relative to the vanilla setting. SkillFlow contributes a structured testbed for this direction and an in-depth empirical analysis of skill discovery, patching, transfer, and their failure modes under lifelong evaluation.

SkillFlow: Avaliação de Descoberta e Evolução Contínua de Habilidades para Agentes Autônomos

SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

Resumo

Support