Agentes de Banco de Habilidades y Decisión de LLM que Coevolucionan para Tareas de Horizonte Largo

Resumen

Los entornos interactivos de horizonte largo constituyen un banco de pruebas para evaluar las capacidades de uso de habilidades de los agentes. Estos entornos exigen un razonamiento de múltiples pasos, la concatenación de diversas habilidades a lo largo de numerosos intervalos de tiempo y una toma de decisiones robusta bajo condiciones de recompensas retardadas y observabilidad parcial. Los juegos son un buen banco de pruebas para evaluar el uso de habilidades de los agentes en dichos entornos. Los Modelos de Lenguaje a Gran Escala (LLMs) representan una alternativa prometedora como agentes jugadores, pero a menudo presentan dificultades con la toma de decisiones consistente a largo plazo debido a la falta de un mecanismo para descubrir, retener y reutilizar habilidades estructuradas a través de diferentes episodios. Presentamos COSPLAY, un marco de co-evolución en el que un agente de decisiones basado en un LLM recupera habilidades de un banco de habilidades entrenable para guiar la toma de acciones, mientras que una canalización de habilidades gestionada por un agente descubre habilidades reutilizables a partir de las ejecuciones no etiquetadas del agente para formar dicho banco. Nuestro marco mejora tanto la capacidad del agente de decisiones para aprender una mejor recuperación de habilidades y generación de acciones, como la del agente del banco de habilidades, que extrae, refina y actualiza continuamente las habilidades junto con sus contratos. Los experimentos en seis entornos de juego muestran que COSPLAY, utilizando un modelo base de 8B, logra una mejora promedio de más del 25.1 por ciento en la recompensa frente a cuatro líneas base de LLMs de vanguardia en benchmarks de juegos para un solo jugador, manteniendo al mismo tiempo competitividad en juegos multijugador de razonamiento social.

English

Long horizon interactive environments are a testbed for evaluating agents skill usage abilities. These environments demand multi step reasoning, the chaining of multiple skills over many timesteps, and robust decision making under delayed rewards and partial observability. Games are a good testbed for evaluating agent skill usage in environments. Large Language Models (LLMs) offer a promising alternative as game playing agents, but they often struggle with consistent long horizon decision making because they lack a mechanism to discover, retain, and reuse structured skills across episodes. We present COSPLAY, a co evolution framework in which an LLM decision agent retrieves skills from a learnable skill bank to guide action taking, while an agent managed skill pipeline discovers reusable skills from the agents unlabeled rollouts to form a skill bank. Our framework improves both the decision agent to learn better skill retrieval and action generation, while the skill bank agent continually extracts, refines, and updates skills together with their contracts. Experiments across six game environments show that COSPLAY with an 8B base model achieves over 25.1 percent average reward improvement against four frontier LLM baselines on single player game benchmarks while remaining competitive on multi player social reasoning games.

Agentes de Banco de Habilidades y Decisión de LLM que Coevolucionan para Tareas de Horizonte Largo

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Resumen

Support