FÄHIGKEIT0: In-Kontext-Agentisches Verstärkungslernen zur Fähigkeitsverinnerlichung

Zusammenfassung

Agent Skills, strukturierte Bündel von prozeduralem Wissen und ausführbaren Ressourcen, die Agenten zur Inferenzzeit dynamisch laden, haben sich als zuverlässiger Mechanismus zur Erweiterung von LLM-Agenten erwiesen. Dennoch ist die Erweiterung durch Skills zur Inferenzzeit grundsätzlich limitiert: Retrieval-Rauschen führt irrelevante Anleitungen ein, eingefügter Skill-Inhalt verursacht erheblichen Token-Overhead, und das Modell eignet sich das Wissen nie wirklich an, dem es lediglich folgt. Wir fragen, ob Skills stattdessen in die Modellparameter internalisiert werden können, um Null-Shot-autonomes Verhalten ohne jeglichen Skill-Retrieval zur Laufzeit zu ermöglichen. Wir stellen SKILL0 vor, ein In-Context-Verstärkungslern-Framework, das für die Skill-Internalisierung entwickelt wurde. SKILL0 führt einen Lehrplan zur Trainingszeit ein, der mit vollem Skill-Kontext beginnt und diesen schrittweise zurückzieht. Skills werden offline nach Kategorien gruppiert und zusammen mit der Interaktionshistorie in einen kompakten visuellen Kontext überführt, wodurch das Modell Werkzeugaufrufe und mehrstufige Aufgabenbearbeitung erlernt. Ein dynamischer Lehrplan bewertet dann die on-policy-Hilfreichkeit jeder Skill-Datei, behält nur diejenigen, von denen die aktuelle Policy innerhalb eines linear abnehmenden Budgets noch profitiert, bis der Agent in einer vollständigen Null-Shot-Umgebung operiert. Umfangreiche agentenbasierte Experimente zeigen, dass SKILL0 substantiale Verbesserungen gegenüber der standardmäßigen RL-Basislinie erzielt (+9,7 % für ALFWorld und +6,6 % für Search-QA), während ein hocheffizienter Kontext von weniger als 0,5k Tokens pro Schritt beibehalten wird. Unser Code ist verfügbar unter https://github.com/ZJU-REAL/SkillZero.

English

Agent skills, structured packages of procedural knowledge and executable resources that agents dynamically load at inference time, have become a reliable mechanism for augmenting LLM agents. Yet inference-time skill augmentation is fundamentally limited: retrieval noise introduces irrelevant guidance, injected skill content imposes substantial token overhead, and the model never truly acquires the knowledge it merely follows. We ask whether skills can instead be internalized into model parameters, enabling zero-shot autonomous behavior without any runtime skill retrieval. We introduce SKILL0, an in-context reinforcement learning framework designed for skill internalization. SKILL0 introduces a training-time curriculum that begins with full skill context and progressively withdraws it. Skills are grouped offline by category and rendered with interaction history into a compact visual context, teaching he model tool invocation and multi-turn task completion. A Dynamic Curriculum then evaluates each skill file's on-policy helpfulness, retaining only those from which the current policy still benefits within a linearly decaying budget, until the agent operates in a fully zero-shot setting. Extensive agentic experiments demonstrate that SKILL0 achieves substantial improvements over the standard RL baseline (+9.7\% for ALFWorld and +6.6\% for Search-QA), while maintaining a highly efficient context of fewer than 0.5k tokens per step. Our code is available at https://github.com/ZJU-REAL/SkillZero.

FÄHIGKEIT0: In-Kontext-Agentisches Verstärkungslernen zur Fähigkeitsverinnerlichung

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Zusammenfassung

Support