Skill0.5 : Internalisation et Utilisation Conjointes des Compétences pour la Généralisation Hors Distribution dans l'Apprentissage par Renforcement Agentique

Résumé

Équiper les grands modèles de langage de compétences explicites est devenu un paradigme prometteur pour permettre aux agents autonomes de résoudre des tâches complexes. Les compétences des agents peuvent intrinsèquement se diviser en compétences générales pour un transfert cognitif large et en compétences spécifiques aux tâches pour une exécution dynamique. Cependant, les méthodes existantes d'apprentissage par renforcement (RL) basé sur les compétences imposent généralement un choix rigide entre l'externalisation complète, qui entraîne une surcharge contextuelle prohibitive, et l'internalisation complète, qui risque le surapprentissage et les conflits de connaissances. Pour résoudre ce dilemme, nous proposons Skill0.5, un nouveau cadre d'apprentissage par renforcement agentique qui différencie explicitement les traitements des compétences en combinant l'internalisation des compétences générales avec l'utilisation de compétences spécifiques aux tâches. Piloté par un routeur dynamique et sensible à la difficulté, Skill0.5 répartit les tâches en différents niveaux de maîtrise afin d'appliquer des stratégies d'optimisation sur mesure : il internalise les compétences générales via une distillation privilégiée pour construire une base cognitive pour les tâches difficiles, tout en utilisant un sondage diagnostique sur les tâches faciles pour pénaliser les raccourcis et imposer l'utilisation de compétences spécifiques. Les expériences menées sur ALFWorld et WebShop montrent que Skill0.5 surpasse à la fois les références RL basées sur la mémoire et celles basées sur les compétences, obtenant des améliorations de performance dans les scénarios intra-distribution et hors distribution.

English

Equipping large language models with explicit skills has emerged as a promising paradigm for enabling autonomous agents to solve complex tasks. Agent skills can be inherently divided into general skills for broad cognitive transfer and task-specific skills for dynamic execution. However, existing skill-based reinforcement learning (RL) methods typically force a rigid choice between full externalization, which incurs prohibitive context overhead, and full internalization, which risks overfitting and knowledge conflicts. To address this dilemma, we propose Skill0.5, a novel agentic RL framework that explicitly differentiates skill treatments by combining general skill internalization with task-specific skill utilization. Driven by a dynamic, difficulty-aware router, Skill0.5 streams tasks into distinct mastery tiers to apply tailored optimization strategies: it internalizes general skills via privileged distillation to build a cognitive foundation for hard tasks, while using diagnostic probing on easy tasks to penalize shortcuts and enforce specific skill utilization. Experiments on ALFWorld and WebShop demonstrate that Skill0.5 outperforms both memory-based and skill-based RL baselines, yielding performance improvements across both in-distribution and out-of-distribution scenarios.