Co-evoluerende LLM-beslissings- en vaardighedenbankagenten voor langetermijntaken

Samenvatting

Langetermijn-interactieve omgevingen vormen een testomgeving voor het evalueren van de vaardigheidsbenutting van agents. Deze omgevingen vereisen meerstapsredenering, het aaneenschakelen van meerdere vaardigheden over vele tijdstappen, en robuuste besluitvorming onder vertraagde beloningen en gedeeltelijke observeerbaarheid. Spellen zijn een goede testomgeving voor het evalueren van vaardigheidsgebruik van agents in dergelijke omgevingen. Grote Taalmodellen (LLM's) vormen een veelbelovend alternatief als spelende agents, maar ze worstelen vaak met consistente besluitvorming op de lange termijn omdat ze een mechanisme missen om gestructureerde vaardigheden te ontdekken, te behouden en te hergebruiken tussen episodes. Wij presenteren COSPLAY, een co-evolutiekader waarin een LLM-beslissingsagent vaardigheden ophaalt uit een leerbare vaardighedenbank om de actiekeuze te sturen, terwijl een door een agent beheerde vaardighedenpijplijn herbruikbare vaardigheden ontdekt uit de ongelabelde rollouts van de agents om een vaardighedenbank te vormen. Ons kader verbetert zowel de beslissingsagent om betere vaardigheidsretrieval en actiegeneratie te leren, terwijl de vaardighedenbank-agent continu vaardigheden samen met hun contracten extraheert, verfijnt en bijwerkt. Experimenten in zes spelomgevingen tonen aan dat COSPLAY met een basismodel van 8B een gemiddelde beloningsverbetering van meer dan 25,1 procent bereikt ten opzichte van vier state-of-the-art LLM-basislijnen in single-player game benchmarks, terwijl het competitief blijft in multi-player sociale redeneerspellen.

English

Long horizon interactive environments are a testbed for evaluating agents skill usage abilities. These environments demand multi step reasoning, the chaining of multiple skills over many timesteps, and robust decision making under delayed rewards and partial observability. Games are a good testbed for evaluating agent skill usage in environments. Large Language Models (LLMs) offer a promising alternative as game playing agents, but they often struggle with consistent long horizon decision making because they lack a mechanism to discover, retain, and reuse structured skills across episodes. We present COSPLAY, a co evolution framework in which an LLM decision agent retrieves skills from a learnable skill bank to guide action taking, while an agent managed skill pipeline discovers reusable skills from the agents unlabeled rollouts to form a skill bank. Our framework improves both the decision agent to learn better skill retrieval and action generation, while the skill bank agent continually extracts, refines, and updates skills together with their contracts. Experiments across six game environments show that COSPLAY with an 8B base model achieves over 25.1 percent average reward improvement against four frontier LLM baselines on single player game benchmarks while remaining competitive on multi player social reasoning games.

Co-evoluerende LLM-beslissings- en vaardighedenbankagenten voor langetermijntaken

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Samenvatting

Support