Agenti LLM a Co-Evoluzione di Decisioni e Banche delle Competenze per Compiti a Lungo Orizzonte

Abstract

Gli ambienti interattivi a lungo orizzonte costituiscono un banco di prova per valutare le capacità di utilizzo delle abilità degli agenti. Questi ambienti richiedono ragionamenti a più fasi, la concatenazione di multiple abilità attraverso numerosi step temporali e un processo decisionale robusto in condizioni di ricompense ritardate e osservabilità parziale. I giochi rappresentano un ottimo banco di prova per valutare l'utilizzo delle abilità degli agenti in tali ambienti. I Large Language Model (LLM) offrono un'alternativa promettente come agenti giocatori, ma spesso incontrano difficoltà nel prendere decisioni coerenti su orizzonti lunghi poiché mancano di un meccanismo per scoprire, conservare e riutilizzare abilità strutturate tra diversi episodi. Presentiamo COSPLAY, un framework di co-evoluzione in cui un agente decisionale LLM recupera abilità da un archivio di competenze apprendibile per guidare le azioni, mentre una pipeline di abilità gestita da un agente scopre competenze riutilizzabili dalle esecuzioni non etichettate dell'agente per formare un archivio. Il nostro framework migliora sia l'agente decisionale, permettendogli di apprendere un migliore recupero delle abilità e una generazione di azioni più efficace, mentre l'agente dell'archivio di competenze estrae, affina e aggiorna continuamente le abilità insieme ai loro contratti. Esperimenti condotti in sei ambienti di gioco dimostrano che COSPLAY, implementato con un modello base da 8B, raggiunge un miglioramento medio della ricompensa superiore al 25,1% rispetto a quattro baseline LLM all'avanguardia su benchmark di giochi per un singolo giocatore, rimanendo allo stesso tempo competitivo in giochi di ragionamento sociale multigiocatore.

English

Long horizon interactive environments are a testbed for evaluating agents skill usage abilities. These environments demand multi step reasoning, the chaining of multiple skills over many timesteps, and robust decision making under delayed rewards and partial observability. Games are a good testbed for evaluating agent skill usage in environments. Large Language Models (LLMs) offer a promising alternative as game playing agents, but they often struggle with consistent long horizon decision making because they lack a mechanism to discover, retain, and reuse structured skills across episodes. We present COSPLAY, a co evolution framework in which an LLM decision agent retrieves skills from a learnable skill bank to guide action taking, while an agent managed skill pipeline discovers reusable skills from the agents unlabeled rollouts to form a skill bank. Our framework improves both the decision agent to learn better skill retrieval and action generation, while the skill bank agent continually extracts, refines, and updates skills together with their contracts. Experiments across six game environments show that COSPLAY with an 8B base model achieves over 25.1 percent average reward improvement against four frontier LLM baselines on single player game benchmarks while remaining competitive on multi player social reasoning games.

Agenti LLM a Co-Evoluzione di Decisioni e Banche delle Competenze per Compiti a Lungo Orizzonte

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Abstract

Support