Совместно эволюционирующие агенты с банком решений и навыков на основе LLM для решения долгосрочных задач

Аннотация

Долгосрочные интерактивные среды являются полигоном для оценки способностей агентов к использованию навыков. Эти среды требуют многошагового рассуждения, объединения нескольких навыков на протяжении множества временных шагов и устойчивого принятия решений в условиях отсроченного вознаграждения и частичной наблюдаемости. Игры представляют собой хороший полигон для оценки использования навыков агентом в различных средах. Большие языковые модели (LLM) являются многообещающей альтернативой в качестве агентов для игры, однако они часто испытывают трудности с последовательным принятием решений на длительных горизонтах, поскольку у них отсутствует механизм для обнаружения, сохранения и повторного использования структурированных навыков между эпизодами. Мы представляем COSPLAY — коэволюционную структуру, в которой агент-принимающий решения на основе LLM извлекает навыки из обучаемого банка навыков для управления действиями, в то время как управляемый агентом конвейер навыков обнаруживает пригодные для повторного использования навыки из неразмеченных прогонов агента для формирования банка навыков. Наша структура улучшает как агента по принятию решений, позволяя ему лучше обучаться извлечению навыков и генерации действий, так и агента банка навыков, который постоянно извлекает, уточняет и обновляет навыки вместе с их контрактами. Эксперименты в шести игровых средах показывают, что COSPLAY с базовой моделью на 8 миллиардов параметров достигает улучшения среднего вознаграждения более чем на 25,1 процентный пункт по сравнению с четырьмя передовыми LLM-базисами в тестах на одиночных играх, сохраняя при этом конкурентоспособность в многопользовательских играх, требующих социальных рассуждений.

English

Long horizon interactive environments are a testbed for evaluating agents skill usage abilities. These environments demand multi step reasoning, the chaining of multiple skills over many timesteps, and robust decision making under delayed rewards and partial observability. Games are a good testbed for evaluating agent skill usage in environments. Large Language Models (LLMs) offer a promising alternative as game playing agents, but they often struggle with consistent long horizon decision making because they lack a mechanism to discover, retain, and reuse structured skills across episodes. We present COSPLAY, a co evolution framework in which an LLM decision agent retrieves skills from a learnable skill bank to guide action taking, while an agent managed skill pipeline discovers reusable skills from the agents unlabeled rollouts to form a skill bank. Our framework improves both the decision agent to learn better skill retrieval and action generation, while the skill bank agent continually extracts, refines, and updates skills together with their contracts. Experiments across six game environments show that COSPLAY with an 8B base model achieves over 25.1 percent average reward improvement against four frontier LLM baselines on single player game benchmarks while remaining competitive on multi player social reasoning games.

Совместно эволюционирующие агенты с банком решений и навыков на основе LLM для решения долгосрочных задач

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Аннотация

Support