SkillEvolBench: Het benchmarken van de evolutie van episodische ervaring naar procedurele vaardigheden

Samenvatting

Grote taalmodellen (LLM’s) die als agenten fungeren, bouwen tijdens het oplossen van realistische taken rijke episodische trajecten op, maar het is onduidelijk of dergelijke ervaring kan worden gedistilleerd tot herbruikbare procedurele vaardigheden. Wij introduceren SkillEvolBench, een diagnostische benchmark om deze stap van ervaringshergebruik naar vaardigheidsvorming te evalueren. De benchmark omvat 180 taken verspreid over zes realistische agentomgevingen, georganiseerd in rolgebonden taakfamilies met gedeelde latente procedures. Agenten leren van verwervingstaken, werken een externe vaardigheidsbibliotheek bij met behulp van gecomprimeerde trajecten en verificatorfeedback, en worden vervolgens geconfronteerd met bevroren implementatietaken die contextverschuiving, tegenstrijdige snelkoppelingen en compositie testen. Door zelf gegenereerde en van een gecureerde start voorziene vaardigheidsevolutie te vergelijken met controles zonder vaardigheden en met ruwe trajecten, scheidt SkillEvolBench procedurele abstractie van basisvaardigheid, gecureerde voorkennis en direct hergebruik van episodische sporen. Over tien modelconfiguraties en drie agent-harnassen heen vinden we dat huidige agenten zich vaak lokaal aanpassen, maar zelden robuuste herbruikbare vaardigheden vormen. Op vaardigheden gebaseerde condities kunnen de verwerving of herhaling verbeteren, en individuele modellen boeken soms vooruitgang op specifieke implementatie-assen, maar deze winst is onstabiel onder bevroren implementatie. Hergebruik van ruwe trajecten presteert vaak beter dan gedistilleerde vaardigheden, wat erop wijst dat huidige abstractieprocedures contextuele en procedurele aanwijzingen weggooien die nuttig blijven voor toekomstige taken. Capaciteits- en kostenanalyses tonen verder aan dat het schrijven van meer vaardigheden of grotere Tier-3-bronnenbibliotheken niet voldoende is: extra updates kunnen de dekking verbeteren, maar introduceren ook episodespecifieke drift en procedurele rommel. Deze bevindingen positioneren SkillEvolBench als een testbed om te meten wanneer eenmalige ervaring verandert in duurzame procedurele kennis in plaats van taaklokaal geheugen.

English

Large language model (LLM) agents accumulate rich episodic trajectories while solving real-world tasks, but it remains unclear whether such experience can be distilled into reusable procedural skills. We introduce SkillEvolBench, a diagnostic benchmark for evaluating this step from experience reuse to skill formation. It contains 180 tasks across six real-world agent environments, organized into role-conditioned task families with shared latent procedures. Agents learn from acquisition tasks, update an external skill library using compacted trajectories and verifier feedback, and then face frozen deployment tasks testing context shift, adversarial shortcuts, and composition. By comparing self-generated and curated-start skill evolution against no-skill and raw-trajectory controls, SkillEvolBench separates procedural abstraction from base capability, curated prior knowledge, and direct reuse of episodic traces. Across ten model configurations and three agent harnesses, we find that current agents often adapt locally but rarely form robust reusable skills. Skill-based conditions can improve acquisition or replay, and individual models sometimes gain on specific deployment axes, but these gains are unstable under frozen deployment. Raw-trajectory reuse frequently outperforms distilled skills, suggesting that current abstraction procedures discard contextual and procedural cues that remain useful for future tasks. Capacity and cost analyses further show that writing more skills or larger Tier-3 resource libraries is not sufficient: additional updates can improve coverage while introducing episode-specific drift and procedural clutter. These findings position SkillEvolBench as a testbed for measuring when one-off experience becomes durable procedural knowledge rather than task-local memory.