Compétence1 : Évolution unifiée d'agents augmentés par compétences via l'apprentissage par renforcement

Résumé

Une bibliothèque de compétences persistantes permet aux agents de modèles linguistiques de réutiliser des stratégies efficaces sur diverses tâches. Le maintien d'une telle bibliothèque nécessite trois capacités couplées. L'agent sélectionne une compétence pertinente, l'utilise lors de l'exécution et distille de nouvelles compétences à partir de l'expérience. Les méthodes existantes optimisent ces capacités de manière isolée ou avec des sources de récompense distinctes, ce qui entraîne une évolution partielle et conflictuelle. Nous proposons Skill1, un cadre qui entraîne une politique unique à faire co-évoluer la sélection, l'utilisation et la distillation des compétences vers un objectif commun lié au résultat de la tâche. La politique génère une requête pour interroger la bibliothèque de compétences, reclasse les candidats pour en sélectionner une, résout la tâche en se basant sur celle-ci et distille une nouvelle compétence à partir de la trajectoire. Tout apprentissage découle d'un seul signal de résultat de tâche. Sa tendance basse fréquence crédite la sélection et sa variation haute fréquence crédite la distillation. Les expériences sur ALFWorld et WebShop montrent que Skill1 surpasse les méthodes antérieures basées sur les compétences et les approches par apprentissage par renforcement. La dynamique d'entraînement confirme la co-évolution des trois capacités, et les études d'ablation montrent que supprimer l'un ou l'autre signal de crédit dégrade l'évolution.

English

A persistent skill library allows language model agents to reuse successful strategies across tasks. Maintaining such a library requires three coupled capabilities. The agent selects a relevant skill, utilizes it during execution, and distills new skills from experience. Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution. We propose Skill1, a framework that trains a single policy to co-evolve skill selection, utilization, and distillation toward a shared task-outcome objective. The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory. All learning derives from a single task-outcome signal. Its low-frequency trend credits selection and its high-frequency variation credits distillation. Experiments on ALFWorld and WebShop show that Skill1 outperforms prior skill-based and reinforcement learning baselines. Training dynamics confirm the co-evolution of the three capabilities, and ablations show that removing any credit signal degrades the evolution.

Compétence1 : Évolution unifiée d'agents augmentés par compétences via l'apprentissage par renforcement

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

Résumé

Support