VAARDIGHEID0: In-Context Agentisch Versterkend Leren voor Vaardigheidinternalisatie

Samenvatting

Agentvaardigheden, gestructureerde pakketten van procedurele kennis en uitvoerbare hulpbronnen die agents dynamisch laden tijdens inferentie, zijn een betrouwbaar mechanisme geworden voor het uitbreiden van LLM-agents. Toch kent inference-time vaardigheidsuitbreiding fundamentele beperkingen: retrievalruis introduceert irrelevante richtlijnen, geïnjecteerde vaardigheidsinhoud legt een aanzienlijke token-overhead op, en het model verwerft de kennis die het slechts volgt nooit echt. Wij vragen ons af of vaardigheden instead kunnen worden geïnternaliseerd in modelparameters, waardoor zero-shot autonoom gedrag mogelijk wordt zonder enige runtime-vaardigheidsretrieval. Wij introduceren SKILL0, een in-context reinforcement learning-raamwerk ontworpen voor vaardigheidsinternalisatie. SKILL0 introduceert een curriculum tijdens de training dat begint met volledige vaardigheidscontext en deze geleidelijk afbouwt. Vaardigheden worden offline gegroepeerd per categorie en samen met interactiegeschiedenis weergegeven in een compacte visuele context, waardoor het model toolaanroeping en multiturn-taakvoltooiing leert. Een Dynamisch Curriculum evalueert vervolgens de on-policy nuttigheid van elk vaardigheidsbestand, waarbij alleen die worden behouden waarvan het huidige beleid nog profiteert binnen een lineair afnemende budgettering, totdat de agent opereert in een volledig zero-shot setting. Uitgebreide agent-experimenten tonen aan dat SKILL0 substantiële verbeteringen bereikt ten opzichte van de standaard RL-baseline (+9,7% voor ALFWorld en +6,6% voor Search-QA), waarbij een zeer efficiënte context van minder dan 0,5k tokens per stap wordt aangehouden. Onze code is beschikbaar op https://github.com/ZJU-REAL/SkillZero.

English

Agent skills, structured packages of procedural knowledge and executable resources that agents dynamically load at inference time, have become a reliable mechanism for augmenting LLM agents. Yet inference-time skill augmentation is fundamentally limited: retrieval noise introduces irrelevant guidance, injected skill content imposes substantial token overhead, and the model never truly acquires the knowledge it merely follows. We ask whether skills can instead be internalized into model parameters, enabling zero-shot autonomous behavior without any runtime skill retrieval. We introduce SKILL0, an in-context reinforcement learning framework designed for skill internalization. SKILL0 introduces a training-time curriculum that begins with full skill context and progressively withdraws it. Skills are grouped offline by category and rendered with interaction history into a compact visual context, teaching he model tool invocation and multi-turn task completion. A Dynamic Curriculum then evaluates each skill file's on-policy helpfulness, retaining only those from which the current policy still benefits within a linearly decaying budget, until the agent operates in a fully zero-shot setting. Extensive agentic experiments demonstrate that SKILL0 achieves substantial improvements over the standard RL baseline (+9.7\% for ALFWorld and +6.6\% for Search-QA), while maintaining a highly efficient context of fewer than 0.5k tokens per step. Our code is available at https://github.com/ZJU-REAL/SkillZero.

VAARDIGHEID0: In-Context Agentisch Versterkend Leren voor Vaardigheidinternalisatie

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Samenvatting

Support