SkillFlow: Evaluación Comparativa del Descubrimiento y Evolución de Habilidades Continuas para Agentes Autónomos

Resumen

A medida que la frontera de capacidades de los agentes autónomos sigue expandiéndose, estos son cada vez más capaces de completar tareas especializadas mediante habilidades externas plug-and-play. Sin embargo, los puntos de referencia actuales prueban mayoritariamente si los modelos pueden utilizar las habilidades proporcionadas, dejando abierta la cuestión de si pueden descubrir habilidades a partir de la experiencia, repararlas tras un fallo y mantener una biblioteca coherente a lo largo del tiempo. Presentamos SkillFlow, un benchmark de 166 tareas distribuidas en 20 familias, en el que la construcción de tareas dentro de cada familia sigue un Flujo de Ejecución Independiente del Dominio (DAEF) que define un marco de trabajo para el flujo del agente, permitiendo que estas tareas compartan un flujo de trabajo consistente. Los agentes son evaluados bajo un protocolo de Aprendizaje Continuo Agéntico en el que comienzan sin habilidades, resuelven tareas secuencialmente dentro de cada familia, externalizan las lecciones aprendidas mediante parches de habilidades basados en trayectorias y rúbricas, y trasladan la biblioteca actualizada a tareas posteriores. Los experimentos revelan una brecha sustancial de capacidades. Para Claude Opus 4.6, la evolución continua de habilidades mejora la tasa de éxito en las tareas del 62.65% al 71.08% (+8.43 puntos). No obstante, un alto uso de habilidades no implica necesariamente una alta utilidad: Kimi K2.5 gana solo +0.60 puntos a pesar de un uso de habilidades del 66.87%, mientras que Qwen-Coder-Next alcanza solo una tasa de finalización de tareas del 44.58% y aún así experimenta una regresión respecto a la configuración básica. SkillFlow contribuye con un banco de pruebas estructurado para esta dirección de investigación y un análisis empírico en profundidad del descubrimiento, aplicación de parches, transferencia de habilidades y sus modos de fallo bajo evaluación continua.

English

As the capability frontier of autonomous agents continues to expand, they are increasingly able to complete specialized tasks through plug-and-play external skills. Yet current benchmarks mostly test whether models can use provided skills, leaving open whether they can discover skills from experience, repair them after failure, and maintain a coherent library over time. We introduce SkillFlow, a benchmark of 166 tasks across 20 families in which task construction within each family follows a Domain-Agnostic Execution Flow (DAEF) that defines an agent workflow framework, allowing these tasks to share a consistent workflow. Agents are evaluated under an Agentic Lifelong Learning protocol in which they begin without skills, solve tasks sequentially within each family, externalize lessons through trajectory- and rubric-driven skill patches, and carry the updated library forward. Experiments reveal a substantial capability gap. For Claude Opus 4.6, lifelong skill evolution improves task success from 62.65% to 71.08% (+8.43 points). However, high skill usage does not necessarily imply high utility: Kimi K2.5 gains only +0.60 points despite 66.87% skill usage, while Qwen-Coder-Next reaches only a 44.58% task completion rate and still regresses relative to the vanilla setting. SkillFlow contributes a structured testbed for this direction and an in-depth empirical analysis of skill discovery, patching, transfer, and their failure modes under lifelong evaluation.

SkillFlow: Evaluación Comparativa del Descubrimiento y Evolución de Habilidades Continuas para Agentes Autónomos

SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

Resumen

Support