Agents à Banque de Compétences et de Décisions LLM en Co-Évolution pour les Tâches à Long Horizon

Résumé

Les environnements interactifs à long horizon constituent un banc d'essai pour évaluer les capacités d'utilisation des compétences par les agents. Ces environnements exigent un raisonnement multi-étape, l'enchaînement de multiples compétences sur de nombreuses étapes temporelles et une prise de décision robuste face à des récompenses différées et une observabilité partielle. Les jeux représentent un bon banc d'essai pour évaluer l'utilisation des compétences des agents dans divers contextes. Les grands modèles de langage (LLM) constituent une alternative prometteuse en tant qu'agents joueurs, mais ils peinent souvent à maintenir une prise de décision cohérente sur le long terme, car ils ne disposent pas de mécanismes pour découvrir, retenir et réutiliser des compétences structurées d'un épisode à l'autre. Nous présentons COSPLAY, un cadre de coévolution dans lequel un agent décisionnel basé sur un LLM récupère des compétences depuis une banque de compétences apprenable pour guider la prise d'actions, tandis qu'un pipeline de compétences géré par un agent découvre des compétences réutilisables à partir des déploiements non étiquetés de l'agent pour constituer cette banque. Notre cadre améliore à la fois la capacité de l'agent décisionnel à apprendre un meilleur rappel de compétences et une génération d'actions plus efficace, tandis que l'agent gérant la banque de compétences extrait, affine et met à jour continuellement les compétences ainsi que leurs contrats. Les expériences menées sur six environnements de jeu montrent que COSPLAY, utilisant un modèle de base de 8B paramètres, obtient une amélioration moyenne de plus de 25,1 % des récompenses par rapport à quatre LLM de référence sur des benchmarks de jeux solo, tout en restant compétitif sur des jeux de raisonnement social multi-joueurs.

English

Long horizon interactive environments are a testbed for evaluating agents skill usage abilities. These environments demand multi step reasoning, the chaining of multiple skills over many timesteps, and robust decision making under delayed rewards and partial observability. Games are a good testbed for evaluating agent skill usage in environments. Large Language Models (LLMs) offer a promising alternative as game playing agents, but they often struggle with consistent long horizon decision making because they lack a mechanism to discover, retain, and reuse structured skills across episodes. We present COSPLAY, a co evolution framework in which an LLM decision agent retrieves skills from a learnable skill bank to guide action taking, while an agent managed skill pipeline discovers reusable skills from the agents unlabeled rollouts to form a skill bank. Our framework improves both the decision agent to learn better skill retrieval and action generation, while the skill bank agent continually extracts, refines, and updates skills together with their contracts. Experiments across six game environments show that COSPLAY with an 8B base model achieves over 25.1 percent average reward improvement against four frontier LLM baselines on single player game benchmarks while remaining competitive on multi player social reasoning games.

Agents à Banque de Compétences et de Décisions LLM en Co-Évolution pour les Tâches à Long Horizon

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Résumé

Support