Ko-evolutionäre LLM-Entscheidungs- und Fähigkeitenbank-Agenten für langfristige Aufgaben

Zusammenfassung

Langfristige interaktive Umgebungen sind ein Testfeld zur Bewertung der Fähigkeiten von Agenten im Umgang mit Fertigkeiten. Diese Umgebungen erfordern mehrstufiges logisches Denken, die Verkettung mehrerer Fertigkeiten über viele Zeitschritte hinweg sowie robuste Entscheidungsfindung bei verzögerten Belohnungen und teilweiser Beobachtbarkeit. Spiele sind ein geeignetes Testfeld, um die Nutzung von Agentenfertigkeiten in solchen Umgebungen zu evaluieren. Große Sprachmodelle (LLMs) bieten eine vielversprechende Alternative als spielende Agenten, haben jedoch oft Schwierigkeiten mit konsistenter langfristiger Entscheidungsfindung, da ihnen ein Mechanismus fehlt, um strukturierte Fertigkeiten episodenübergreifend zu entdecken, zu behalten und wiederzuverwenden. Wir stellen COSPLAY vor, ein Co-Evolutions-Framework, bei dem ein LLM-Entscheidungsagent Fertigkeiten aus einer erlernbaren Fertigkeitsbank abruft, um die Aktionsauswahl zu steuern, während eine agentengesteuerte Fertigkeitspipeline wiederverwendbare Fertigkeiten aus den unmarkierten Rollouts des Agenten entdeckt, um eine Fertigkeitsbank zu bilden. Unser Framework verbessert sowohl den Entscheidungsagenten, indem er das Abrufen von Fertigkeiten und die Aktionsgenerierung optimiert, als auch die Fertigkeitsbank, die kontinuierlich Fertigkeiten zusammen mit ihren Kontrakten extrahiert, verfeinert und aktualisiert. Experimente in sechs Spielumgebungen zeigen, dass COSPLAY mit einem Basismodell von 8B eine durchschnittliche Belohnungssteigerung von über 25,1 Prozent gegenüber vier fortschrittlichen LLM-Baselines in Single-Player-Spiel-Benchmarks erzielt und dabei in Multiplayer-Spielen mit sozialem Reasoning wettbewerbsfähig bleibt.

English

Long horizon interactive environments are a testbed for evaluating agents skill usage abilities. These environments demand multi step reasoning, the chaining of multiple skills over many timesteps, and robust decision making under delayed rewards and partial observability. Games are a good testbed for evaluating agent skill usage in environments. Large Language Models (LLMs) offer a promising alternative as game playing agents, but they often struggle with consistent long horizon decision making because they lack a mechanism to discover, retain, and reuse structured skills across episodes. We present COSPLAY, a co evolution framework in which an LLM decision agent retrieves skills from a learnable skill bank to guide action taking, while an agent managed skill pipeline discovers reusable skills from the agents unlabeled rollouts to form a skill bank. Our framework improves both the decision agent to learn better skill retrieval and action generation, while the skill bank agent continually extracts, refines, and updates skills together with their contracts. Experiments across six game environments show that COSPLAY with an 8B base model achieves over 25.1 percent average reward improvement against four frontier LLM baselines on single player game benchmarks while remaining competitive on multi player social reasoning games.

Ko-evolutionäre LLM-Entscheidungs- und Fähigkeitenbank-Agenten für langfristige Aufgaben

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Zusammenfassung

Support