ChatPaper.aiChatPaper

장기 과제를 위한 LLM 의사 결정 및 스킬 뱅크 에이전트의 공동 진화

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

April 22, 2026
저자: Xiyang Wu, Zongxia Li, Guangyao Shi, Alexander Duffy, Tyler Marques, Matthew Lyle Olson, Tianyi Zhou, Dinesh Manocha
cs.AI

초록

장기적 상호작용 환경은 에이전트의 기술 활용 능력을 평가하는 시험대입니다. 이러한 환경은 다단계 추론, 많은 시간 단계에 걸친 다중 기술의 연쇄적 사용, 지연된 보상과 부분적 관찰 가능성 하에서의 견고한 의사결정을 요구합니다. 게임은 환경 내 에이전트 기술 사용을 평가하는 좋은 시험대입니다. 대규모 언어 모델(LLM)은 게임 플레이 에이전트로서 유망한 대안을 제공하지만, 에피소드 전반에 걸쳐 구조화된 기술을 발견하고 유지하며 재사용하는 메커니즘이 부족하기 때문에 일관된 장기적 의사결정에 어려움을 겪는 경우가 많습니다. 본 논문에서는 LLM 의사결정 에이전트가 학습 가능한 기술 은행에서 기술을 검색하여 행동 선택을 안내하는 동시에, 에이전트가 관리하는 기술 파이프라인이 에이전트의 비라벨 롤아웃에서 재사용 가능한 기술을 발견하여 기술 은행을 구성하는 공진화 프레임워크인 COSPLAY를 제시합니다. 우리의 프레임워크는 의사결정 에이전트가 더 나은 기술 검색과 행동 생성을 학습하도록 개선하는 한편, 기술 은행 에이전트는 기술과 그 계약 조건을 지속적으로 추출, 정제 및 업데이트합니다. 6가지 게임 환경에서의 실험 결과, 8B 기반 모델을 사용한 COSPLAY는 단일 플레이어 게임 벤치마크에서 4개의 최첨단 LLM 기준선 대비 25.1% 이상의 평균 보상 향상을 달성했으며, 다중 플레이어 사회적 추론 게임에서도 경쟁력을 유지하는 것으로 나타났습니다.
English
Long horizon interactive environments are a testbed for evaluating agents skill usage abilities. These environments demand multi step reasoning, the chaining of multiple skills over many timesteps, and robust decision making under delayed rewards and partial observability. Games are a good testbed for evaluating agent skill usage in environments. Large Language Models (LLMs) offer a promising alternative as game playing agents, but they often struggle with consistent long horizon decision making because they lack a mechanism to discover, retain, and reuse structured skills across episodes. We present COSPLAY, a co evolution framework in which an LLM decision agent retrieves skills from a learnable skill bank to guide action taking, while an agent managed skill pipeline discovers reusable skills from the agents unlabeled rollouts to form a skill bank. Our framework improves both the decision agent to learn better skill retrieval and action generation, while the skill bank agent continually extracts, refines, and updates skills together with their contracts. Experiments across six game environments show that COSPLAY with an 8B base model achieves over 25.1 percent average reward improvement against four frontier LLM baselines on single player game benchmarks while remaining competitive on multi player social reasoning games.
PDF141April 25, 2026