COMPÉTENCE0 : Apprentissage par Renforcement Agentique en Contexte pour l'Internalisation des Compétences

Résumé

Les compétences d'agent, ensembles structurés de connaissances procédurales et de ressources exécutables que les agents chargent dynamiquement au moment de l'inférence, sont devenues un mécanisme fiable pour augmenter les agents LLM. Pourtant, l'augmentation par compétences lors de l'inférence est fondamentalement limitée : le bruit de récupération introduit des indications non pertinentes, l'injection du contenu des compétences impose une surcharge token importante, et le modèle n'acquiert jamais véritablement les connaissances qu'il se contente de suivre. Nous nous demandons si les compétences peuvent plutôt être internalisées dans les paramètres du modèle, permettant un comportement autonome zero-shot sans aucune récupération de compétences à l'exécution. Nous présentons SKILL0, un cadre d'apprentissage par renforcement in-context conçu pour l'internalisation des compétences. SKILL0 introduit un curriculum d'apprentissage qui commence avec un contexte complet des compétences et le retire progressivement. Les compétences sont regroupées hors ligne par catégorie et converties, avec l'historique des interactions, en un contexte visuel compact, enseignant au modèle l'invocation d'outils et l'accomplissement de tâches multi-tours. Un Curriculum Dynamique évalue ensuite l'utilité sur la politique de chaque fichier de compétence, ne conservant que ceux dont la politique actuelle bénéficie encore dans le cadre d'un budget à décroissance linéaire, jusqu'à ce que l'agent opère dans un environnement entièrement zero-shot. Des expériences approfondies en milieu agentique démontrent que SKILL0 obtient des améliorations substantielles par rapport à la ligne de base d'apprentissage par renforcement standard (+9,7 % pour ALFWorld et +6,6 % pour Search-QA), tout en maintenant un contexte très efficace de moins de 0,5k tokens par étape. Notre code est disponible à l'adresse https://github.com/ZJU-REAL/SkillZero.

English

Agent skills, structured packages of procedural knowledge and executable resources that agents dynamically load at inference time, have become a reliable mechanism for augmenting LLM agents. Yet inference-time skill augmentation is fundamentally limited: retrieval noise introduces irrelevant guidance, injected skill content imposes substantial token overhead, and the model never truly acquires the knowledge it merely follows. We ask whether skills can instead be internalized into model parameters, enabling zero-shot autonomous behavior without any runtime skill retrieval. We introduce SKILL0, an in-context reinforcement learning framework designed for skill internalization. SKILL0 introduces a training-time curriculum that begins with full skill context and progressively withdraws it. Skills are grouped offline by category and rendered with interaction history into a compact visual context, teaching he model tool invocation and multi-turn task completion. A Dynamic Curriculum then evaluates each skill file's on-policy helpfulness, retaining only those from which the current policy still benefits within a linearly decaying budget, until the agent operates in a fully zero-shot setting. Extensive agentic experiments demonstrate that SKILL0 achieves substantial improvements over the standard RL baseline (+9.7\% for ALFWorld and +6.6\% for Search-QA), while maintaining a highly efficient context of fewer than 0.5k tokens per step. Our code is available at https://github.com/ZJU-REAL/SkillZero.

COMPÉTENCE0 : Apprentissage par Renforcement Agentique en Contexte pour l'Internalisation des Compétences

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Résumé

Support