SkillEvolBench : Benchmarking de l'évolution de l'expérience épisodique vers les compétences procédurales

Résumé

Les agents de modèle de langage de grande taille accumulent des trajectoires épisodiques riches en résolvant des tâches du monde réel, mais il reste incertain si une telle expérience peut être distillée en compétences procédurales réutilisables. Nous présentons SkillEvolBench, un benchmark diagnostique pour évaluer cette étape allant de la réutilisation d'expérience à la formation de compétences. Il contient 180 tâches réparties dans six environnements d'agents du monde réel, organisées en familles de tâches conditionnées par le rôle avec des procédures latentes partagées. Les agents apprennent à partir de tâches d'acquisition, mettent à jour une bibliothèque de compétences externe en utilisant des trajectoires compactées et le retour du vérificateur, puis font face à des tâches de déploiement figées testant le changement de contexte, les raccourcis adversariaux et la composition. En comparant l'évolution des compétences auto-générées et à départ soigneusement sélectionné avec des contrôles sans compétence et à trajectoires brutes, SkillEvolBench sépare l'abstraction procédurale de la capacité de base, des connaissances préalables soigneusement sélectionnées et de la réutilisation directe des traces épisodiques. À travers dix configurations de modèle et trois infrastructures d'agents, nous constatons que les agents actuels s'adaptent souvent localement mais forment rarement des compétences robustes et réutilisables. Les conditions basées sur les compétences peuvent améliorer l'acquisition ou le rejeu, et certains modèles individuels progressent parfois sur des axes de déploiement spécifiques, mais ces gains sont instables sous déploiement figé. La réutilisation de trajectoires brutes surpasse fréquemment les compétences distillées, suggérant que les procédures d'abstraction actuelles éliminent les indices contextuels et procéduraux qui restent utiles pour les tâches futures. Les analyses de capacité et de coût montrent en outre que l'écriture de davantage de compétences ou de bibliothèques de ressources de niveau 3 plus grandes n'est pas suffisante : des mises à jour supplémentaires peuvent améliorer la couverture tout en introduisant une dérive spécifique à l'épisode et un encombrement procédural. Ces résultats positionnent SkillEvolBench comme un banc d'essai pour mesurer quand une expérience ponctuelle devient une connaissance procédurale durable plutôt qu'une mémoire locale de la tâche.

English

Large language model (LLM) agents accumulate rich episodic trajectories while solving real-world tasks, but it remains unclear whether such experience can be distilled into reusable procedural skills. We introduce SkillEvolBench, a diagnostic benchmark for evaluating this step from experience reuse to skill formation. It contains 180 tasks across six real-world agent environments, organized into role-conditioned task families with shared latent procedures. Agents learn from acquisition tasks, update an external skill library using compacted trajectories and verifier feedback, and then face frozen deployment tasks testing context shift, adversarial shortcuts, and composition. By comparing self-generated and curated-start skill evolution against no-skill and raw-trajectory controls, SkillEvolBench separates procedural abstraction from base capability, curated prior knowledge, and direct reuse of episodic traces. Across ten model configurations and three agent harnesses, we find that current agents often adapt locally but rarely form robust reusable skills. Skill-based conditions can improve acquisition or replay, and individual models sometimes gain on specific deployment axes, but these gains are unstable under frozen deployment. Raw-trajectory reuse frequently outperforms distilled skills, suggesting that current abstraction procedures discard contextual and procedural cues that remain useful for future tasks. Capacity and cost analyses further show that writing more skills or larger Tier-3 resource libraries is not sufficient: additional updates can improve coverage while introducing episode-specific drift and procedural clutter. These findings position SkillEvolBench as a testbed for measuring when one-off experience becomes durable procedural knowledge rather than task-local memory.