SkillFlow: Бенчмаркинг непрерывного открытия и эволюции навыков для автономных агентов

Аннотация

По мере расширения границ возможностей автономных агентов они становятся все более способными выполнять специализированные задачи с помощью подключаемых внешних навыков. Однако современные бенчмарки в основном проверяют, способны ли модели использовать предоставленные навыки, оставляя открытым вопрос о том, могут ли они обнаруживать навыки на основе опыта, исправлять их после сбоев и поддерживать согласованную библиотеку с течением времени. Мы представляем SkillFlow — бенчмарк из 166 задач, охватывающих 20 семейств, в котором построение задач внутри каждого семейства следует Domain-Agnostic Execution Flow (DAEF), определяющему фреймворк рабочего процесса агента, что позволяет этим задачам иметь согласованный рабочий процесс. Агенты оцениваются по протоколу Agentic Lifelong Learning, в рамках которого они начинают без навыков, последовательно решают задачи внутри каждого семейства, экстернализируют полученные уроки через патчи навыков на основе траекторий и рубрик и переносят обновленную библиотеку вперед. Эксперименты выявляют существенный разрыв в возможностях. Для Claude Opus 4.6 эволюция навыков на протяжении жизненного цикла повышает успешность выполнения задач с 62,65% до 71,08% (+8,43 пункта). Однако высокое использование навыков не обязательно подразумевает высокую полезность: Kimi K2.5 получает лишь +0,60 пункта, несмотря на использование навыков на 66,87%, в то время как Qwen-Coder-Next достигает уровня завершения задач лишь в 44,58% и все равно демонстрирует регресс по сравнению с базовой настройкой. SkillFlow вносит вклад в виде структурированного полигона для этого направления исследований и предоставляет глубокий эмпирический анализ обнаружения, исправления, передачи навыков и их режимов отказа в условиях пожизненной оценки.

English

As the capability frontier of autonomous agents continues to expand, they are increasingly able to complete specialized tasks through plug-and-play external skills. Yet current benchmarks mostly test whether models can use provided skills, leaving open whether they can discover skills from experience, repair them after failure, and maintain a coherent library over time. We introduce SkillFlow, a benchmark of 166 tasks across 20 families in which task construction within each family follows a Domain-Agnostic Execution Flow (DAEF) that defines an agent workflow framework, allowing these tasks to share a consistent workflow. Agents are evaluated under an Agentic Lifelong Learning protocol in which they begin without skills, solve tasks sequentially within each family, externalize lessons through trajectory- and rubric-driven skill patches, and carry the updated library forward. Experiments reveal a substantial capability gap. For Claude Opus 4.6, lifelong skill evolution improves task success from 62.65% to 71.08% (+8.43 points). However, high skill usage does not necessarily imply high utility: Kimi K2.5 gains only +0.60 points despite 66.87% skill usage, while Qwen-Coder-Next reaches only a 44.58% task completion rate and still regresses relative to the vanilla setting. SkillFlow contributes a structured testbed for this direction and an in-depth empirical analysis of skill discovery, patching, transfer, and their failure modes under lifelong evaluation.

SkillFlow: Бенчмаркинг непрерывного открытия и эволюции навыков для автономных агентов

SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

Аннотация

Support