Agentes de Decisão e Banco de Habilidades de LLM em Coevolução para Tarefas de Longo Horizonte

Resumo

Ambientes interativos de longo horizonte são uma plataforma de teste para avaliar as capacidades de utilização de habilidades por agentes. Estes ambientes exigem raciocínio multi-etapa, o encadeamento de múltiplas habilidades ao longo de muitos intervalos de tempo e tomada de decisão robusta sob condições de recompensas atrasadas e observabilidade parcial. Os jogos são um bom ambiente de teste para avaliar a utilização de habilidades por agentes. Os Modelos de Linguagem de Grande Escala (LLMs) oferecem uma alternativa promissora como agentes jogadores, mas frequentemente lutam com uma tomada de decisão consistente em horizontes longos porque carecem de um mecanismo para descobrir, reter e reutilizar habilidades estruturadas entre episódios. Apresentamos o COSPLAY, uma estrutura de co-evolução na qual um agente de decisão LLM recupera habilidades de um banco de habilidades aprendível para orientar a tomada de ação, enquanto um pipeline de habilidades gerenciado por agente descobre habilidades reutilizáveis a partir das execuções não rotuladas do agente para formar um banco de habilidades. Nossa estrutura melhora tanto o agente de decisão para aprender uma melhor recuperação de habilidades e geração de ações, enquanto o agente do banco de habilidades extrai, refina e atualiza continuamente as habilidades juntamente com seus contratos. Experimentos em seis ambientes de jogo mostram que o COSPLAY com um modelo base de 8B alcança uma melhoria média de recompensa superior a 25,1 por cento contra quatro linhas de base de LLMs de fronteira em benchmarks de jogos para um jogador, mantendo-se competitivo em jogos de raciocínio social multijogador.

English

Long horizon interactive environments are a testbed for evaluating agents skill usage abilities. These environments demand multi step reasoning, the chaining of multiple skills over many timesteps, and robust decision making under delayed rewards and partial observability. Games are a good testbed for evaluating agent skill usage in environments. Large Language Models (LLMs) offer a promising alternative as game playing agents, but they often struggle with consistent long horizon decision making because they lack a mechanism to discover, retain, and reuse structured skills across episodes. We present COSPLAY, a co evolution framework in which an LLM decision agent retrieves skills from a learnable skill bank to guide action taking, while an agent managed skill pipeline discovers reusable skills from the agents unlabeled rollouts to form a skill bank. Our framework improves both the decision agent to learn better skill retrieval and action generation, while the skill bank agent continually extracts, refines, and updates skills together with their contracts. Experiments across six game environments show that COSPLAY with an 8B base model achieves over 25.1 percent average reward improvement against four frontier LLM baselines on single player game benchmarks while remaining competitive on multi player social reasoning games.

Agentes de Decisão e Banco de Habilidades de LLM em Coevolução para Tarefas de Longo Horizonte

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Resumo

Support